INDEX
Negative Logits
Splitter
-0.08
Sampler
-0.08
worse
-0.08
以来
-0.08
worst
-0.07
terro
-0.07
OTES
-0.07
_SPL
-0.07
hotspots
-0.07
hemi
-0.07
POSITIVE LOGITS
formatting
0.10
.format
0.09
answer
0.09
format
0.09
antwort
0.09
explanations
0.09
一句
0.08
reasoning
0.08
हिंदी
0.08
roman
0.08
Activations Density 0.063%