INDEX
Negative Logits
to
0.46
of
0.39
á
0.38
ä
0.38
It
0.36
up
0.34
ায়
0.33
t
0.33
lo
0.31
ha
0.31
POSITIVE LOGITS
r
0.38
5
0.36
змі
0.35
3
0.33
welke
0.32
ول
0.31
sozial
0.31
نيا
0.31
4
0.30
们
0.30
Activations Density 0.001%
to
of
á
ä
It
up
ায়
t
lo
ha
r
5
змі
3
welke
ول
sozial
نيا
4
们