INDEX
Negative Logits
akin
-0.08
mule
-0.08
mir
-0.08
નોંધ
-0.08
collapsing
-0.07
Hol
-0.07
מוש
-0.07
્સ
-0.07
નો
-0.07
ubishi
-0.07
POSITIVE LOGITS
烈
0.10
しい
0.08
ened
0.08
-eyed
0.08
Rede
0.08
vali
0.08
盛
0.07
斗
0.07
loyalty
0.07
kadın
0.07
Activations Density 0.004%