INDEX
Explanations
processing, evidence, struggle, Fall, vowel
New Auto-Interp
Negative Logits
ث
0.49
ش
0.48
والف
0.45
лимпи
0.43
flourishes
0.42
kredi
0.41
ﺜ
0.40
Tele
0.39
спублі
0.39
Télé
0.39
POSITIVE LOGITS
%.
0.43
ongeveer
0.42
龵
0.41
ěl
0.40
substrate
0.40
ினார்கள்
0.40
THEY
0.38
siete
0.38
माफिया
0.38
छह
0.38
Activations Density 0.005%