INDEX
Negative Logits
(Status
-0.07
between
-0.07
post
-0.07
Center
-0.07
quote
-0.07
checks
-0.07
Rear
-0.07
enemy
-0.06
search
-0.06
qué
-0.06
POSITIVE LOGITS
इन
0.07
ysters
0.06
fwrite
0.06
тен
0.06
Fab
0.06
поб
0.06
leo
0.06
تفاوت
0.06
asil
0.06
0.06
Activations Density 0.048%