INDEX
Negative Logits
t
0.99
an
0.75
i
0.75
l
0.68
anonym
0.61
el
0.60
ה
0.60
victory
0.58
gout
0.57
er
0.57
POSITIVE LOGITS
с
0.60
보다
0.58
因而
0.54
со
0.53
𝐛
0.53
ᱭ
0.50
моль
0.50
စ
0.50
работы
0.48
හර
0.48
Activations Density 0.001%
t
an
i
l
anonym
el
ה
victory
gout
er
с
보다
因而
со
𝐛
ᱭ
моль
စ
работы
හර