INDEX
Negative Logits
σε
0.41
dır
0.40
dotycz
0.38
もら
0.38
gebruiken
0.36
ק
0.36
THEY
0.35
welke
0.34
في
0.34
اة
0.34
POSITIVE LOGITS
to
0.63
К
0.50
СТ
0.44
for
0.43
モ
0.43
↵↵
0.42
یس
0.41
リ
0.41
It
0.40
to
0.40
Activations Density 0.001%
σε
dır
dotycz
もら
gebruiken
ק
THEY
welke
في
اة
to
К
СТ
for
モ
↵↵
یس
リ
It
to