INDEX
Explanations
`<|text start|>` or `<start>`
New Auto-Interp
Negative Logits
bare
-0.09
***!\n
-0.09
/misc
-0.08
unus
-0.08
âĶĺ
-0.08
bait
-0.08
út
-0.08
sur
-0.08
worm
-0.08
lox
-0.08
POSITIVE LOGITS
><
0.10
wes
0.09
ACKET
0.09
Cham
0.09
hybrid
0.09
Wes
0.09
Blond
0.09
Hybrid
0.08
åµ
0.08
ored
0.08
Activations Density 0.013%