INDEX
Negative Logits
نظم
-0.09
Bates
-0.08
nata
-0.08
आग
-0.08
erat
-0.08
izielle
-0.07
neuer
-0.07
我国
-0.07
育
-0.07
solcher
-0.07
POSITIVE LOGITS
reasons
0.15
razões
0.13
razones
0.13
raisons
0.13
Reasons
0.12
Reasons
0.12
காரண
0.11
理由
0.11
Gründen
0.10
الأسباب
0.10
Activations Density 0.014%