INDEX
Negative Logits
אית
-0.07
intenz
-0.07
Ол
-0.07
anda
-0.07
ುತ್ತ
-0.07
intel
-0.07
Т
-0.07
aliro
-0.07
=get
-0.07
/etc
-0.07
POSITIVE LOGITS
(comm
0.09
\(
0.08
(po
0.08
(bus
0.08
(dep
0.08
Viol
0.08
po
0.07
ruling
0.07
comm
0.07
phys
0.07
Activations Density 0.020%