INDEX
Negative Logits
,min
-0.08
virtues
-0.08
ther
-0.08
babae
-0.08
(which
-0.07
规则
-0.07
regras
-0.07
英语
-0.07
philosophies
-0.07
(is
-0.07
POSITIVE LOGITS
�
0.08
dana
0.08
чан
0.08
ваканс
0.08
فرصة
0.08
Upcoming
0.08
осков
0.08
�
0.08
તમારા
0.08
Einladung
0.08
Activations Density 0.008%