INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ید
1.48
ка
1.39
ە
1.34
ë
1.33
ə
1.29
یر
1.26
ı
1.23
ми
1.22
ą
1.16
یل
1.13
POSITIVE LOGITS
说
1.38
层
1.25
層
1.16
ট
1.14
:
1.12
ر
1.10
ش
1.06
F
1.05
Layer
1.05
র
1.04
Activations Density 0.000%