INDEX
Negative Logits
(ind
-0.08
_draw
-0.08
надо
-0.08
dessin
-0.08
pecho
-0.08
(te
-0.07
очеред
-0.07
кабин
-0.07
occup
-0.07
rows
-0.07
POSITIVE LOGITS
methane
0.09
且
0.08
/oder
0.08
/or
0.08
മല
0.08
ivre
0.08
glycer
0.08
Users
0.07
ivil
0.07
Similarly
0.07
Activations Density 0.030%