INDEX
Negative Logits
Tu
-0.07
Pop
-0.07
खबर
-0.07
온
-0.07
weak
-0.06
문서
-0.06
untuk
-0.06
amik
-0.06
éro
-0.06
arov
-0.06
POSITIVE LOGITS
MCU
0.07
urchase
0.07
=tf
0.07
якого
0.07
_CUR
0.06
(contents
0.06
psychic
0.06
'\
0.06
discomfort
0.06
.Regular
0.06
Activations Density 0.010%