INDEX
Negative Logits
Ja
-0.06
(co
-0.06
.xz
-0.06
ayant
-0.06
posted
-0.05
Px
-0.05
Bin
-0.05
GRA
-0.05
완
-0.05
Cro
-0.05
POSITIVE LOGITS
Mini
0.07
irthday
0.07
notations
0.07
tingham
0.07
mutex
0.07
incidence
0.07
elfast
0.07
toxicity
0.07
ozor
0.06
니스
0.06
Activations Density 0.000%