INDEX
Negative Logits
ಿನ್ನ
-0.08
-0.08
Titanic
-0.07
柱
-0.07
kalor
-0.07
Celsius
-0.07
dîner
-0.07
kolme
-0.07
化
-0.07
圈
-0.07
POSITIVE LOGITS
imminent
0.09
viol
0.09
aggrav
0.08
violent
0.08
ณ
0.08
.BAD
0.08
তাঁ
0.08
orden
0.08
_saida
0.08
ណ
0.08
Activations Density 0.005%