INDEX
Negative Logits
hat
-0.07
rat
-0.07
inson
-0.07
CV
-0.07
στή
-0.07
CI
-0.07
plain
-0.07
_THIS
-0.07
RL
-0.07
ал
-0.07
POSITIVE LOGITS
’nde
0.09
kanssa
0.09
pouss
0.08
igers
0.08
følger
0.08
/Delete
0.08
Starter
0.08
’ind
0.08
Automat
0.08
andidato
0.08
Activations Density 0.121%