INDEX
Explanations
and followed by other words
New Auto-Interp
Negative Logits
er
0.74
u
0.73
ar
0.68
ic
0.67
el
0.67
a
0.64
ر
0.61
ik
0.60
o
0.56
idig
0.54
POSITIVE LOGITS
ﻭ
0.55
ž
0.53
ﻟ
0.52
ﺎ
0.48
którego
0.48
ﻓ
0.48
bagian
0.47
𝚄
0.47
ンの
0.47
койма
0.47
Activations Density 0.287%