INDEX
Negative Logits
Determine
-0.08
िश्चित
-0.07
ADB
-0.07
thr
-0.07
nhất
-0.07
solt
-0.07
�
-0.07
esclarecer
-0.07
确定
-0.07
Thr
-0.07
POSITIVE LOGITS
الدا
0.08
illicit
0.08
erings
0.08
োহ
0.07
dunkel
0.07
viol
0.07
.minus
0.07
kreativ
0.07
violate
0.07
Phones
0.07
Activations Density 0.007%