INDEX
Negative Logits
Sham
-0.07
Rep
-0.07
sham
-0.07
Seriously
-0.07
_tax
-0.07
Res
-0.07
inde
-0.07
Abr
-0.07
Assess
-0.07
-0.07
POSITIVE LOGITS
-called
0.09
svært
0.08
עות
0.08
oben
0.08
-même
0.07
distinto
0.07
weig
0.07
horses
0.07
itario
0.07
forth
0.07
Activations Density 0.010%