INDEX
Negative Logits
’am
-0.07
ád
-0.07
novels
-0.07
Educ
-0.06
'am
-0.06
spar
-0.06
bins
-0.06
Mär
-0.06
Sport
-0.06
Visit
-0.06
POSITIVE LOGITS
pled
0.06
址
0.06
なく
0.06
�
0.06
ho
0.06
arpa
0.06
ulfill
0.06
/english
0.06
Nec
0.06
leo
0.06
Activations Density 0.002%