INDEX
Explanations
namely, introducing specification
New Auto-Interp
Negative Logits
and
1.14
ب
1.04
يه
1.03
大
1.01
艐
0.94
ليل
0.93
х
0.91
or
0.91
𝘭
0.85
一
0.84
POSITIVE LOGITS
'
1.47
)
1.42
มัน
0.92
),
0.91
)،
0.91
↵
0.90
"
0.90
로
0.90
اشی
0.89
นี้
0.89
Activations Density 0.003%