INDEX
Negative Logits
afety
-0.08
Load
-0.07
دود
-0.07
Abuse
-0.07
Respond
-0.07
Safety
-0.07
送
-0.06
cliff
-0.06
logger
-0.06
cellar
-0.06
POSITIVE LOGITS
_sec
0.07
NavigationView
0.06
prus
0.06
gemeins
0.06
ln
0.06
nc
0.06
]);↵↵
0.06
Tr
0.06
-n
0.06
periodically
0.06
Activations Density 0.005%