INDEX
Explanations
here's how and let me know if
New Auto-Interp
Negative Logits
私たちは
0.27
enormes
0.27
BUT
0.27
soooo
0.26
usamos
0.24
addirittura
0.24
真正
0.23
আমরা
0.23
जुनून
0.23
সত্যিকার
0.23
POSITIVE LOGITS
GPT
0.26
↵↵
0.26
revised
0.25
markdown
0.25
the
0.24
GPT
0.24
0.24
improved
0.24
ChatGPT
0.24
y
0.24
Activations Density 0.155%