INDEX
Negative Logits
CLEAN
-0.08
coming
-0.07
charges
-0.07
-wheel
-0.07
ewan
-0.07
Race
-0.06
DF
-0.06
SIMPLE
-0.06
Tim
-0.06
enforcement
-0.06
POSITIVE LOGITS
igner
0.07
dcc
0.07
?>↵↵↵
0.07
lendir
0.07
ucz
0.07
($.
0.07
зі
0.07
.mar
0.07
_mE
0.06
ساله
0.06
Activations Density 0.018%