INDEX
Negative Logits
809
-0.07
833
-0.07
emb
-0.06
_enemy
-0.06
species
-0.06
رس
-0.06
909
-0.06
compte
-0.06
olate
-0.06
reflux
-0.06
POSITIVE LOGITS
watermark
0.07
할인
0.06
dlou
0.06
şeh
0.06
Disp
0.06
Resets
0.06
discount
0.06
prostoru
0.06
TECTION
0.06
Execution
0.06
Activations Density 0.180%