INDEX
Negative Logits
酥
0.46
breaths
0.46
Là
0.46
commenters
0.45
酺
0.44
的一切
0.44
INVESTMENT
0.43
的時間
0.42
స్తు
0.42
Eintritt
0.42
POSITIVE LOGITS
deceit
0.54
paura
0.51
偽
0.47
fake
0.47
deception
0.45
disguise
0.43
pretended
0.42
でも
0.42
disguised
0.42
disgu
0.41
Activations Density 0.006%