INDEX
Negative Logits
boas
-0.07
pequenas
-0.07
મેચ
-0.07
મળે
-0.07
möglichst
-0.07
желательно
-0.07
(T
-0.07
matched
-0.07
ناس
-0.07
práticas
-0.07
POSITIVE LOGITS
ADE
0.09
ignor
0.08
hardcore
0.08
censorship
0.08
只
0.08
käytt
0.08
restrict
0.08
exclusion
0.08
censor
0.08
spezial
0.07
Activations Density 0.015%