INDEX
Negative Logits
aligned
-0.08
biology
-0.08
align
-0.07
biology
-0.07
εί
-0.07
tabi
-0.07
entertainment
-0.07
.tests
-0.07
intelligence
-0.07
.Del
-0.06
POSITIVE LOGITS
füh
0.09
联合
0.08
Gud
0.08
ums
0.08
waren
0.07
'".
0.07
DG
0.07
Anywhere
0.07
gyfr
0.07
UGIN
0.07
Activations Density 0.004%