INDEX
Negative Logits
Ban
-0.06
son
-0.06
/OR
-0.06
forall
-0.06
ORY
-0.06
isn
-0.06
DAO
-0.06
item
-0.06
appreh
-0.06
SON
-0.06
POSITIVE LOGITS
的
0.08
子的
0.08
원의
0.08
수의
0.08
的小
0.08
스의
0.08
인의
0.08
사의
0.08
개의
0.08
生的
0.07
Activations Density 0.026%