INDEX
Negative Logits
devis
-0.08
/her
-0.07
Bands
-0.07
bands
-0.07
Crist
-0.07
orchestra
-0.07
ുള
-0.07
ende
-0.07
ശര
-0.07
тан
-0.07
POSITIVE LOGITS
smanship
0.12
pasi
0.08
稿
0.08
ulang
0.08
detox
0.07
poste
0.07
telegram
0.07
dibuat
0.07
spontaneously
0.07
NV
0.07
Activations Density 0.006%