INDEX
Negative Logits
Hans
-0.08
Hans
-0.08
Style
-0.07
query
-0.07
וה
-0.07
−
-0.07
Џ
-0.07
极速
-0.07
AU
-0.07
_eval
-0.07
POSITIVE LOGITS
disruptions
0.10
ício
0.08
disruption
0.08
intox
0.08
disturbances
0.07
قطاع
0.07
escolar
0.07
rey
0.07
થ
0.07
occasion
0.07
Activations Density 0.009%