INDEX
Negative Logits
Dre
-0.07
多久
-0.07
diversified
-0.07
DU
-0.07
depending
-0.07
Due
-0.07
discus
-0.07
舍
-0.07
dosing
-0.07
plupart
-0.07
POSITIVE LOGITS
wrongly
0.10
falsch
0.10
unjust
0.10
inappropriate
0.10
abusing
0.10
violating
0.10
falsely
0.10
_failure
0.09
improperly
0.09
misuse
0.09
Activations Density 0.015%