INDEX
Negative Logits
(grammar
-0.07
profound
-0.07
悠
-0.06
_ros
-0.06
_WEAPON
-0.06
.median
-0.06
цель
-0.06
↵↵
-0.06
_EX
-0.06
Honor
-0.06
POSITIVE LOGITS
jab
0.07
isinde
0.06
abilidade
0.06
ayet
0.06
mite
0.06
enght
0.06
-ci
0.06
łem
0.06
_PRICE
0.06
amba
0.06
Activations Density 0.019%