INDEX
Negative Logits
fractured
-0.08
andere
-0.08
�്റ
-0.08
нарушение
-0.07
_rating
-0.07
ঝ
-0.07
radiant
-0.07
Amerika
-0.07
нарушения
-0.07
↵ ↵
-0.07
POSITIVE LOGITS
пра
0.09
folos
0.08
נק
0.08
íl
0.08
costumes
0.07
toll
0.07
.Web
0.07
wei
0.07
uja
0.07
er's
0.07
Activations Density 0.002%