INDEX
Negative Logits
RAY
-0.08
sexual
-0.07
_WIN
-0.07
kì
-0.07
诎
-0.07
URRED
-0.07
ギャ
-0.06
.java
-0.06
EATURE
-0.06
Neuro
-0.06
POSITIVE LOGITS
כרטיס
0.07
ates
0.06
批复
0.06
helf
0.06
oll
0.06
i
0.06
default
0.06
antage
0.06
itations
0.06
\base
0.06
Activations Density 0.001%