INDEX
Negative Logits
chorus
-0.07
stir
-0.07
tub
-0.07
feof
-0.06
برد
-0.06
öz
-0.06
mayores
-0.06
ademic
-0.06
्रत
-0.06
oldur
-0.06
POSITIVE LOGITS
po
0.33
Po
0.18
Po
0.14
-po
0.14
po
0.12
_po
0.11
(po
0.11
PO
0.09
.po
0.08
_PO
0.08
Activations Density 0.008%