INDEX
Negative Logits
atent
-0.08
lembr
-0.07
Hes
-0.07
necessari
-0.07
willingness
-0.07
denen
-0.07
_ce
-0.07
Extraction
-0.07
outward
-0.07
hes
-0.07
POSITIVE LOGITS
ansson
0.08
uded
0.08
nf
0.08
كن
0.08
�
0.07
neu
0.07
istine
0.07
ركز
0.07
岛
0.07
-таки
0.07
Activations Density 0.012%