INDEX
Negative Logits
common
-0.07
acc
-0.06
anomalies
-0.06
.acc
-0.06
Women
-0.06
text
-0.06
대
-0.06
の中
-0.06
(position
-0.06
neuroscience
-0.06
POSITIVE LOGITS
Ebola
0.17
haf
0.08
строки
0.07
популяр
0.06
bri
0.06
adel
0.06
Bever
0.06
EDIT
0.06
ücretsiz
0.06
ывал
0.06
Activations Density 0.001%