INDEX
Negative Logits
yup
-0.08
Yup
-0.08
vida
-0.07
.Parser
-0.07
褐色
-0.07
agner
-0.07
진행
-0.07
fragile
-0.07
marriages
-0.07
băng
-0.07
POSITIVE LOGITS
↵ ↵
0.07
עוב
0.07
0.07
PD
0.06
IP
0.06
议员
0.06
地區
0.06
Enemy
0.06
尤其是
0.06
increasing
0.06
Activations Density 0.001%