INDEX
Explanations
references to character customization and progression in games
New Auto-Interp
Negative Logits
$\$
-0.62
${-0.62
。。。。
-0.60
$\
-0.58
\\
-0.56
XNUMX
-0.55
和我
-0.55
。。。
-0.54
和他
-0.54
.\\
-0.53
POSITIVE LOGITS
&
3.90
(&
2.42
\&
2.27
&
2.21
&,
2.16
)&
2.06
(&
2.03
,&
2.00
-&
1.96
}&
1.91
Activations Density 0.231%