INDEX
Explanations
punctuation and conjunctions
New Auto-Interp
Negative Logits
of
0.70
4
0.70
5
0.64
AL
0.61
nightmare
0.61
lecting
0.61
2
0.60
:
0.60
ة
0.60
be
0.59
POSITIVE LOGITS
Pemerintah
0.61
จาก
0.59
ها
0.57
คุณ
0.55
㳓
0.53
Sulf
0.52
羪
0.52
bạn
0.51
penuh
0.51
مشخص
0.51
Activations Density 0.000%