INDEX
Negative Logits
raging
-0.08
seguint
-0.08
Número
-0.07
结束后
-0.07
_IE
-0.07
wiązan
-0.07
Dimit
-0.07
.fig
-0.07
Prot
-0.07
Tina
-0.07
POSITIVE LOGITS
כתב
0.07
quietly
0.07
فاق
0.06
judges
0.06
daddy
0.06
convey
0.06
ҷ
0.06
פק
0.06
สย
0.06
퀵
0.06
Activations Density 0.005%