INDEX
Negative Logits
Ras
-0.08
люд
-0.07
ludicrous
-0.07
soak
-0.07
Temple
-0.07
Yup
-0.06
(IL
-0.06
ecret
-0.06
ak
-0.06
D
-0.06
POSITIVE LOGITS
sene
0.06
WithType
0.06
_study
0.06
bildir
0.06
_adjust
0.06
Marx
0.06
标
0.06
succession
0.06
.figure
0.06
WithError
0.06
Activations Density 0.052%