INDEX
Negative Logits
lum
-0.08
ండ
-0.08
Malay
-0.08
pek
-0.08
eraar
-0.07
married
-0.07
paring
-0.07
nice
-0.07
awaii
-0.07
nice
-0.07
POSITIVE LOGITS
utter
0.12
utters
0.12
ut
0.11
UT
0.09
_ut
0.09
引
0.09
rit
0.09
UT
0.08
utting
0.08
टर
0.08
Activations Density 0.012%