INDEX
Negative Logits
ικός
-0.09
xpos
-0.07
dese
-0.06
nonce
-0.06
итив
-0.06
tweets
-0.06
-null
-0.06
τών
-0.06
stash
-0.06
Thur
-0.06
POSITIVE LOGITS
recounted
0.06
,/
0.06
activist
0.06
олот
0.06
abort
0.06
MW
0.06
'ai
0.06
enforcing
0.06
masa
0.06
Raymond
0.06
Activations Density 0.008%