INDEX
Negative Logits
ophage
-0.07
考古
-0.07
博彩
-0.07
.Stop
-0.07
oids
-0.07
nehmen
-0.06
شهر
-0.06
larger
-0.06
รอ
-0.06
architectures
-0.06
POSITIVE LOGITS
عارض
0.07
الخلي
0.07
تكلم
0.07
夬
0.07
כד
0.06
事先
0.06
intimidating
0.06
unset
0.06
弼
0.06
>&
0.06
Activations Density 0.031%