INDEX
Negative Logits
frein
-0.08
flair
-0.07
Flair
-0.07
dor
-0.07
_EXCEPTION
-0.07
beb
-0.07
entino
-0.07
ゼ
-0.07
INK
-0.07
fels
-0.07
POSITIVE LOGITS
Workers
0.08
discovering
0.08
alty
0.08
Pot
0.08
мақ
0.08
工
0.07
Bands
0.07
客
0.07
TRACT
0.07
MUX
0.07
Activations Density 0.001%