INDEX
Negative Logits
”
0.48
"
0.45
ad
0.42
,
0.41
-
0.40
%
0.40
days
0.39
and
0.38
;
0.38
words
0.38
POSITIVE LOGITS
фильм
0.59
ою
0.58
ıp
0.55
眇
0.54
耔
0.53
hendak
0.52
蟳
0.52
croche
0.51
ভারতীয়
0.50
capuche
0.50
Activations Density 0.001%
”
"
ad
,
-
%
days
and
;
words
фильм
ою
ıp
眇
耔
hendak
蟳
croche
ভারতীয়
capuche