INDEX
Negative Logits
嘘
-0.09
dévelop
-0.08
.resp
-0.07
司令
-0.07
↵ ↵
-0.07
]
-0.07
Boom
-0.06
ध
-0.06
Stop
-0.06
平方米
-0.06
POSITIVE LOGITS
_prim
0.08
سي
0.07
overall
0.07
phi
0.07
/utility
0.07
ri
0.07
III
0.07
tslib
0.07
เขา
0.06
zo
0.06
Activations Density 0.017%