INDEX
Negative Logits
以
-0.10
巨大
-0.08
博客
-0.08
直
-0.08
从
-0.08
奸
-0.07
從
-0.07
ná
-0.07
监管
-0.07
ziger
-0.07
POSITIVE LOGITS
حص
0.08
Liv
0.08
شر
0.08
setq
0.07
disparity
0.07
0.07
לך
0.07
extracts
0.07
naslov
0.07
angle
0.07
Activations Density 0.002%