INDEX
Negative Logits
є
0.55
ิด
0.51
sexism
0.48
classe
0.47
咙
0.47
บคุม
0.47
ні
0.46
neuropathy
0.46
вається
0.46
وی
0.46
POSITIVE LOGITS
እን
0.55
Invit
0.47
rowave
0.47
شعر
0.46
𝒟
0.45
美
0.45
បំ
0.45
طبق
0.44
அங்க
0.44
}^{*}=0.44
Activations Density 0.000%