INDEX
Negative Logits
or
1.28
ibid
1.26
>=</
1.21
walled
1.20
ä
1.17
ɡ
1.16
eny
1.14
verschied
1.14
های
1.13
seule
1.13
POSITIVE LOGITS
其他
1.68
ل
1.61
дир
1.41
增长
1.37
чки
1.35
০০
1.35
phép
1.34
gruppe
1.34
نيا
1.33
秕
1.29
Activations Density 0.003%
or
ibid
>=</
walled
ä
ɡ
eny
verschied
های
seule
其他
ل
дир
增长
чки
০০
phép
gruppe
نيا
秕