INDEX
Negative Logits
before
-0.08
fals
-0.08
))*(
-0.07
erin
-0.07
dd
-0.07
(py
-0.07
(block
-0.07
al
-0.06
typ
-0.06
_slope
-0.06
POSITIVE LOGITS
хол
0.07
wipes
0.07
немає
0.06
Αθή
0.06
Роз
0.06
ΠΑΝ
0.06
inflate
0.06
Bombay
0.06
Ка
0.06
Ошибка
0.06
Activations Density 0.003%