INDEX
Negative Logits
�
-0.09
hira
-0.08
lı
-0.08
咪
-0.08
Nolan
-0.07
Mine
-0.07
cruel
-0.07
принят
-0.07
ating
-0.07
idine
-0.07
POSITIVE LOGITS
kakhulu
0.09
sust
0.09
behaved
0.09
बनाए
0.08
_than
0.08
vement
0.08
tow
0.07
-than
0.07
Bos
0.07
तम
0.07
Activations Density 0.035%