INDEX
Negative Logits
rios
-0.08
Lle
-0.08
reportage
-0.07
अनेक
-0.07
hydrox
-0.07
支付宝
-0.07
wass
-0.07
reibung
-0.07
:maj
-0.07
Reasons
-0.07
POSITIVE LOGITS
zichzelf
0.10
자기
0.10
sarili
0.09
الذات
0.09
engager
0.08
zelfstandig
0.08
vanzelf
0.08
নিজ
0.08
vanaf
0.08
dishonest
0.08
Activations Density 0.011%