INDEX
Negative Logits
amplified
-0.07
ל
-0.07
Ship
-0.07
Labour
-0.07
endants
-0.06
compt
-0.06
Univers
-0.06
wooden
-0.06
towns
-0.06
tam
-0.06
POSITIVE LOGITS
러
0.07
事
0.07
�
0.06
auss
0.06
ğit
0.06
/Branch
0.06
still
0.06
aid
0.06
ヽ
0.06
以外
0.06
Activations Density 0.007%