INDEX
Negative Logits
ok
1.46
é
1.43
ва
1.40
og
1.29
asterisk
1.28
ravine
1.25
龴
1.23
ert
1.20
ق
1.19
िट
1.18
POSITIVE LOGITS
tól
1.62
تون
1.54
ت
1.51
tarif
1.48
tedir
1.45
czne
1.41
تك
1.39
నూ
1.37
ј
1.36
וא
1.35
Activations Density 0.002%
ok
é
ва
og
asterisk
ravine
龴
ert
ق
िट
tól
تون
ت
tarif
tedir
czne
تك
నూ
ј
וא