INDEX
Negative Logits
undo
-0.08
regret
-0.08
))->
-0.08
sufr
-0.08
ımd
-0.08
fie
-0.07
-0.07
motifs
-0.07
mots
-0.07
sus
-0.07
POSITIVE LOGITS
Follow
0.09
gaan
0.08
follow
0.08
ggie
0.08
تمام
0.08
.follow
0.08
Follow
0.08
જર
0.08
rekk
0.08
FOLLOW
0.08
Activations Density 0.001%