INDEX
Explanations
simple descriptions of tasks
New Auto-Interp
Negative Logits
的多
1.03
to
1.01
는
1.00
↵↵
0.93
та
0.92
dàng
0.90
것
0.86
จะ
0.86
的外
0.86
是
0.86
POSITIVE LOGITS
ী
0.99
ம்
0.94
einfacher
0.86
basit
0.86
THAN
0.80
SIMPLE
0.80
Simple
0.79
Simple
0.77
。
0.77
einfachen
0.76
Activations Density 0.057%