INDEX
Explanations
specific indicators of significant data patterns or results
New Auto-Interp
Negative Logits
ьаж
-0.67
Vertrauen
-0.65
Neub
-0.62
propOrder
-0.60
للمعارف
-0.60
mybatisplus
-0.60
perdon
-0.59
piş
-0.58
sulph
-0.57
erstes
-0.57
POSITIVE LOGITS
der
0.98
Der
0.93
DER
0.93
seiner
0.88
dieser
0.87
]))
0.86
Der
0.85
ihrer
0.83
]]]
0.83
Ihrer
0.82
Activations Density 0.029%