INDEX
Negative Logits
t
0.82
s
0.66
u
0.61
('0.60
m
0.60
「
0.58
g
0.57
("0.56
'>
0.56
ti
0.56
POSITIVE LOGITS
ید
0.65
ى
0.55
Meld
0.55
ور
0.54
่อย
0.54
書い
0.53
друзья
0.52
Filme
0.52
IntelliJ
0.52
ிகளை
0.52
Activations Density 0.001%
t
s
u
('m
「
g
("'>
ti
ید
ى
Meld
ور
่อย
書い
друзья
Filme
IntelliJ
ிகளை