INDEX
Negative Logits
hr
-0.08
叫
-0.06
ԛ
-0.06
Festival
-0.06
“(
-0.06
kc
-0.06
קורא
-0.06
难过
-0.06
snapped
-0.06
三四
-0.06
POSITIVE LOGITS
automotive
0.08
特意
0.08
broken
0.07
abilia
0.07
substitution
0.07
love
0.07
_TIMES
0.07
através
0.07
.Atomic
0.07
satın
0.07
Activations Density 0.072%