INDEX
Negative Logits
]}↵
-0.07
아닌
-0.07
Utc
-0.07
По
-0.07
된다
-0.07
!↵↵↵↵
-0.07
شوند
-0.06
以来
-0.06
Lv
-0.06
trustworthy
-0.06
POSITIVE LOGITS
_world
0.06
Autos
0.06
McCartney
0.06
ANI
0.06
Wis
0.06
<Token
0.06
slur
0.06
��取
0.06
cer
0.06
religious
0.06
Activations Density 0.004%