INDEX
Negative Logits
shock
-0.08
обол
-0.07
attire
-0.06
ва
-0.06
burner
-0.06
-close
-0.06
However
-0.06
zus
-0.06
onemocnění
-0.06
河
-0.06
POSITIVE LOGITS
Meat
0.07
liebe
0.06
${({0.06
.Unknown
0.05
verification
0.05
Muslim
0.05
がない
0.05
 ̄ ̄ ̄ ̄
0.05
す
0.05
(newState
0.05
Activations Density 0.005%