INDEX
Explanations
numerical values or scores
New Auto-Interp
Negative Logits
ModelExpression
-0.68
مشين
-0.66
autorytatywna
-0.65
+#+
-0.65
تقاوى
-0.65
majánló
-0.63
NameInMap
-0.63
niſſe
-0.63
новниш
-0.62
ſchaft
-0.62
POSITIVE LOGITS
nimmt
0.41
berlaku
0.41
ardından
0.40
for
0.38
essentiel
0.36
c
0.36
ziekte
0.36
C
0.35
Ausführungen
0.35
Weiterbildung
0.35
Activations Density 0.018%