INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ي
1.18
y
1.10
erweise
1.04
$)$.
1.04
muut
1.02
nagu
1.00
.
0.99
ありました
0.99
fords
0.99
kiek
0.98
POSITIVE LOGITS
女性
1.29
unmarried
1.20
니아
1.20
男性
1.16
غ
1.16
老
1.09
obese
1.08
Adolescent
1.08
woman
1.03
小孩
1.03
Activations Density 0.148%