INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
م
0.91
b
0.87
ش
0.86
F
0.86
ro
0.84
ع
0.83
B
0.80
↵↵
0.80
C
0.80
ج
0.78
POSITIVE LOGITS
исследователь
1.07
болезнь
1.05
cirrhosis
1.04
зить
0.99
doenças
0.97
ार्टमेंट
0.96
чных
0.94
заболеваний
0.93
аллер
0.92
innate
0.92
Activations Density 0.000%