INDEX
Negative Logits
_character
-0.08
Comments
-0.07
(column
-0.06
.xxx
-0.06
VIS
-0.06
coupon
-0.06
(cond
-0.06
каш
-0.06
Simply
-0.06
وه
-0.06
POSITIVE LOGITS
tedav
0.07
itu
0.07
är
0.07
lında
0.07
ăn
0.07
Furious
0.07
FRA
0.07
misunderstood
0.06
Sadd
0.06
xAC
0.06
Activations Density 0.007%