INDEX
Explanations
introductory phrases with colon-asterisk
New Auto-Interp
Negative Logits
م
0.76
inside
0.72
dalam
0.69
kembali
0.67
pembang
0.65
ם
0.64
ו
0.64
ز
0.63
प
0.61
serta
0.61
POSITIVE LOGITS
qos
0.76
;:
0.70
:
0.67
]:
0.65
कारों
0.65
🇽
0.64
IZONTAL
0.64
))
0.64
ټبال
0.63
人士
0.62
Activations Density 0.624%