INDEX
Explanations
arabic-indic digits and chinese punctuation
New Auto-Interp
Negative Logits
2.03
0.69
🌱
0.68
Odysseus
0.65
Alongside
0.64
.”)
0.63
.“
0.62
المختلف
0.61
0.60
<unused1187>
0.59
POSITIVE LOGITS
↵
1.06
↵↵
1.04
",
0.92
<unused2140>
0.91
",
0.90
Ã
0.88
۱
0.88
۴
0.87
"。
0.86
۳
0.86
Activations Density 0.719%