INDEX
Explanations
instances of strong emphasis in text
New Auto-Interp
Negative Logits
–
-0.41
–↵
-0.27
–↵↵
-0.25
--
-0.25
--
-0.24
âĢIJ
-0.21
âĶĢâĶĢ
-0.21
)--
-0.19
ï½ŀ
-0.19
">--}}↵
-0.18
POSITIVE LOGITS
————————————————
0.47
————————
0.44
————
0.37
——
0.27
âĨĴâĨĴ
0.19
ÂĿ
0.18
—↵↵
0.18
—
0.17
âĸł
0.16
ample
0.16
Activations Density 0.071%