INDEX
Negative Logits
Trung
-0.08
亚洲
-0.07
COMM
-0.07
мул
-0.07
reet
-0.07
伙
-0.07
_mult
-0.07
Asian
-0.07
навіть
-0.07
unnies
-0.07
POSITIVE LOGITS
まで
0.08
bekommen
0.08
underneath
0.08
mom
0.08
meaningless
0.08
ificance
0.08
uale
0.08
innocent
0.08
kane
0.07
पाने
0.07
Activations Density 0.002%