INDEX
Negative Logits
[len
-0.07
bigger
-0.07
ultipart
-0.07
יור
-0.07
淚
-0.06
tr
-0.06
לל
-0.06
foes
-0.06
three
-0.06
震动
-0.06
POSITIVE LOGITS
gment
0.08
ража
0.07
chant
0.07
צריך
0.07
collection
0.07
机制
0.07
(assert
0.06
庄
0.06
Substance
0.06
щин
0.06
Activations Density 0.003%