INDEX
Explanations
Assistant/Bot
chat role markers and references to the AI assistant’s identity within conversation transcripts.
New Auto-Interp
Negative Logits
(Auth
-0.07
land
-0.07
/us
-0.07
da
-0.07
ighbour
-0.06
IDE
-0.06
国务院
-0.06
Noise
-0.06
↓
-0.06
Forget
-0.06
POSITIVE LOGITS
_TUN
0.08
etak
0.07
.'));↵
0.07
aceut
0.07
_PI
0.07
修剪
0.07
�
0.07
preco
0.07
냈
0.07
里面的
0.07
Activations Density 0.014%