INDEX
Negative Logits
hepat
-0.08
bara
-0.07
convicted
-0.07
ﰞ
-0.06
ቴ
-0.06
.hostname
-0.06
leggings
-0.06
throm
-0.06
raping
-0.06
atrocities
-0.06
POSITIVE LOGITS
的区别
0.08
Canceled
0.07
Length
0.07
superf
0.07
%
0.07
writers
0.07
wrinkles
0.07
wohl
0.07
_EQ
0.07
------+------+
0.07
Activations Density 0.021%