INDEX
Explanations
understanding concepts or language
New Auto-Interp
Negative Logits
၊
1.08
không
1.07
،
1.02
Е
1.01
to
0.98
,“
0.97
、
0.96
nten
0.93
,
0.89
nh
0.88
POSITIVE LOGITS
ר
2.00
ת
1.59
:
1.36
י
1.27
ה
1.20
/
1.17
ות
1.12
น
1.09
K
1.05
the
1.04
Activations Density 0.236%