INDEX
Negative Logits
’
0.96
'
0.72
\
0.70
I
0.61
y
0.59
line
0.57
我们
0.56
da
0.56
liers
0.56
perfect
0.55
POSITIVE LOGITS
of
0.71
nettoy
0.63
وع
0.62
seus
0.59
dépassant
0.59
restaur
0.59
闶
0.58
pendek
0.58
тите
0.57
ایش
0.57
Activations Density 0.002%