INDEX
Negative Logits
nicely
-0.09
סטר
-0.08
اسٽ
-0.08
forest
-0.08
stan
-0.08
meadow
-0.08
Rd
-0.08
מוק
-0.08
آ
-0.07
lokaci
-0.07
POSITIVE LOGITS
differences
0.09
learn
0.09
そこ
0.09
therein
0.09
learning
0.09
apprendre
0.08
glean
0.08
lære
0.08
dissect
0.08
सीख
0.08
Activations Density 0.057%