INDEX
Explanations
list item markers (2. or II.)
New Auto-Interp
Negative Logits
in
0.53
on
0.47
عام
0.47
et
0.44
8
0.42
5
0.41
াকাল
0.40
othic
0.39
في
0.38
hinzu
0.38
POSITIVE LOGITS
나
0.54
ли
0.49
u
0.48
il
0.47
на
0.47
️⃣
0.46
다
0.46
い
0.44
ﻤ
0.44
matemático
0.44
Activations Density 0.295%