INDEX
Negative Logits
overtime
-0.09
erve
-0.08
sov
-0.08
ANGED
-0.08
cry
-0.07
Pett
-0.07
Nebraska
-0.07
Ere
-0.07
roten
-0.07
turmeric
-0.07
POSITIVE LOGITS
premio
0.07
離
0.07
apl
0.07
-less
0.07
fue
0.07
אב
0.07
ખાતે
0.07
(IO
0.07
ভিত
0.07
Dou
0.07
Activations Density 0.007%