INDEX
Negative Logits
MODIFY
-0.09
PUSH
-0.07
maga
-0.07
premiered
-0.07
READ
-0.07
ROOM
-0.07
POR
-0.07
read
-0.07
wieder
-0.07
925
-0.07
POSITIVE LOGITS
(dummy
0.09
δο
0.09
distinctions
0.09
europeu
0.08
-specific
0.08
نسبة
0.08
_member
0.08
Europe's
0.08
predominant
0.08
全部
0.08
Activations Density 0.014%