INDEX
Negative Logits
prachtige
-0.09
玩的
-0.08
Ine
-0.08
방
-0.08
pretending
-0.08
vandaag
-0.08
beginners
-0.08
�
-0.08
િક્ષ
-0.07
прекрас
-0.07
POSITIVE LOGITS
threshold
0.09
criterion
0.08
Criterion
0.08
criterion
0.08
warranted
0.08
stig
0.08
criteria
0.07
cuotas
0.07
predetermined
0.07
predefined
0.07
Activations Density 0.054%