INDEX
Negative Logits
t
1.26
v
1.22
al
1.21
g
1.20
ing
1.17
er
1.16
i
1.15
d
1.13
u
1.13
and
1.13
POSITIVE LOGITS
↵
1.08
}
1.02
'
0.99
’
0.98
eels
0.96
sombre
0.93
boxe
0.91
rodeo
0.85
limousine
0.85
回目の
0.84
Activations Density 0.010%
t
v
al
g
ing
er
i
d
u
and
↵
}
'
’
eels
sombre
boxe
rodeo
limousine
回目の