INDEX
Negative Logits
_chars
-0.08
𝙋
-0.07
prices
-0.07
disb
-0.07
Seg
-0.07
社科
-0.07
迢
-0.07
iterr
-0.07
construction
-0.06
Cmd
-0.06
POSITIVE LOGITS
erdale
0.08
母婴
0.07
רית
0.07
ليم
0.07
藕
0.07
anker
0.07
Honduras
0.07
ancia
0.07
.ta
0.07
백
0.07
Activations Density 0.021%