INDEX
Negative Logits
Myself
-0.09
ılan
-0.08
.connections
-0.07
Kis
-0.07
winds
-0.07
Му
-0.07
_wait
-0.07
کش
-0.07
reminis
-0.07
temper
-0.07
POSITIVE LOGITS
infringement
0.09
侵犯
0.09
FRINGEMENT
0.08
spoof
0.08
商品
0.08
чуж
0.08
ences
0.08
Voyage
0.07
conf
0.07
车型
0.07
Activations Density 0.003%