INDEX
Negative Logits
Aligned
-0.08
_CM
-0.08
定
-0.08
_C
-0.07
comprado
-0.07
teko
-0.07
Trap
-0.07
تعیین
-0.07
находится
-0.07
)↵
-0.07
POSITIVE LOGITS
_epochs
0.09
journées
0.09
exhibitions
0.08
Verts
0.08
Muhammad
0.08
outings
0.08
masturbation
0.08
taxis
0.08
vowels
0.08
老人
0.08
Activations Density 0.067%