INDEX
Negative Logits
Nom
-0.07
desks
-0.07
Ple
-0.07
besides
-0.07
next
-0.07
cutoff
-0.06
_Sub
-0.06
compar
-0.06
olig
-0.06
Pod
-0.06
POSITIVE LOGITS
efforts
0.07
เทพ
0.07
لت
0.07
!");↵↵
0.06
ri
0.06
일이
0.06
розвит
0.06
CAA
0.06
…I
0.06
sorrow
0.06
Activations Density 0.025%