INDEX
Negative Logits
mosquito
-0.09
Hole
-0.08
empathy
-0.08
gor
-0.08
mutex
-0.08
moat
-0.07
missionary
-0.07
�
-0.07
hole
-0.07
హీరో
-0.07
POSITIVE LOGITS
(TRUE
0.09
述
0.08
paris
0.08
파
0.08
पड़ा
0.08
estin
0.07
详
0.07
予
0.07
sinc
0.07
quantit
0.07
Activations Density 0.026%