INDEX
Negative Logits
Fun
-0.08
Army
-0.08
Fun
-0.07
ordial
-0.07
-worth
-0.07
hing
-0.07
.Sign
-0.07
Constr
-0.07
plaques
-0.07
Council
-0.07
POSITIVE LOGITS
ibri
0.08
客户端
0.08
variables
0.08
月份
0.08
변수
0.08
ตัว
0.07
x
0.07
scare
0.07
리아
0.07
rb
0.07
Activations Density 0.016%