INDEX
Negative Logits
Acceler
-0.06
Im
-0.06
隨
-0.06
-0.06
.users
-0.06
Kevin
-0.06
男人
-0.06
-0.06
Ar
-0.06
глуб
-0.06
POSITIVE LOGITS
doctrine
0.08
-court
0.08
cate
0.07
owering
0.07
doctrine
0.07
thực
0.07
Doctrine
0.07
deductible
0.07
عادة
0.07
orthodox
0.07
Activations Density 0.003%