INDEX
Negative Logits
áreas
-0.08
мам
-0.07
_PHONE
-0.07
נתי
-0.07
利
-0.07
spoken
-0.07
spas
-0.07
распространен
-0.07
小白
-0.07
比较大
-0.06
POSITIVE LOGITS
一心
0.08
坚实的
0.07
(uid
0.07
箖
0.06
destroying
0.06
interrupt
0.06
都被
0.06
Reader
0.06
AR
0.06
𫟼
0.06
Activations Density 0.002%