INDEX
Negative Logits
比例
-0.07
Comfort
-0.06
두
-0.06
_UNIX
-0.06
postseason
-0.06
Audrey
-0.06
δά
-0.06
Čes
-0.06
Hal
-0.06
circus
-0.06
POSITIVE LOGITS
etched
0.07
يان
0.07
.agent
0.06
rote
0.06
inished
0.06
vod
0.06
:start
0.06
:]↵↵
0.06
rava
0.06
okin
0.06
Activations Density 0.015%