INDEX
Negative Logits
hig
-0.08
beein
-0.08
caring
-0.08
-0.08
call
-0.07
founder
-0.07
casar
-0.07
caller
-0.07
fff
-0.07
-0.07
POSITIVE LOGITS
-ক
0.09
män
0.08
прик
0.08
途
0.07
Hamb
0.07
-раз
0.07
आम
0.07
Mur
0.07
Tort
0.07
איזה
0.07
Activations Density 0.002%