INDEX
Negative Logits
보고
-0.08
recul
-0.07
Twe
-0.07
보고
-0.07
pension
-0.07
Sele
-0.07
diverg
-0.07
piel
-0.07
سم
-0.07
não
-0.07
POSITIVE LOGITS
犯罪
0.09
delitos
0.08
不了
0.08
Werkzeug
0.08
Uno
0.08
lsen
0.08
delito
0.08
ുന്നതിന
0.08
ilíc
0.08
jailbreak
0.07
Activations Density 0.004%