INDEX
Explanations
bold markers and punctuation
New Auto-Interp
Negative Logits
사람
0.67
यही
0.52
が
0.50
가
0.50
A
0.49
:
0.47
S
0.46
D
0.46
は
0.46
N
0.45
POSITIVE LOGITS
↵↵
0.93
↵
0.74
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.69
⠀
0.66
↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.64
↵↵↵↵↵
0.64
↵↵↵↵↵↵↵↵↵↵↵↵↵
0.64
、,
0.64
↵↵↵↵
0.63
↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
0.63
Activations Density 0.201%