INDEX
Negative Logits
ATTRIBUTE
-0.07
manipulation
-0.07
urf
-0.06
ak
-0.06
Sigma
-0.06
лом
-0.06
adrenaline
-0.06
.wait
-0.06
ə
-0.06
onces
-0.06
POSITIVE LOGITS
formData
0.07
щось
0.07
kişiler
0.06
araştır
0.06
ากาศ
0.06
(forms
0.06
warto
0.06
iben
0.06
impacted
0.06
وقد
0.06
Activations Density 0.000%