INDEX
Negative Logits
rms
-0.08
ᵑ
-0.07
artisan
-0.07
Tháng
-0.07
Driver
-0.07
-training
-0.07
_sign
-0.07
noch
-0.07
馏
-0.06
incom
-0.06
POSITIVE LOGITS
יור
0.07
讚
0.07
ᕚ
0.07
推送
0.07
ければ
0.07
.ToBoolean
0.06
_CO
0.06
غالب
0.06
السياس
0.06
הישרא
0.06
Activations Density 0.004%