INDEX
Negative Logits
disobed
-0.07
Dataset
-0.07
_ACT
-0.07
.datasets
-0.06
REDIT
-0.06
Fet
-0.06
Youtube
-0.06
Sunrise
-0.06
.enemy
-0.06
abort
-0.06
POSITIVE LOGITS
↵↵↵↵↵↵↵↵↵↵↵
0.07
WARNING
0.07
si
0.07
:key
0.06
Standing
0.06
pressing
0.06
↵↵↵
0.06
mezi
0.06
Outputs
0.06
іш
0.06
Activations Density 0.013%