INDEX
Negative Logits
し
-0.08
metavar
-0.06
breasts
-0.06
File
-0.06
On
-0.06
والن
-0.06
čně
-0.06
bes
-0.06
bes
-0.06
,因
-0.06
POSITIVE LOGITS
.ACT
0.08
contato
0.07
WAYS
0.07
retim
0.06
subdiv
0.06
.'_
0.06
/bus
0.06
.horizontal
0.06
philippines
0.06
علت
0.06
Activations Density 0.002%