INDEX
Negative Logits
detach
-0.07
molded
-0.06
damage
-0.06
sanitize
-0.06
俊
-0.06
Rolled
-0.06
IMITIVE
-0.06
Equals
-0.06
_FP
-0.06
Display
-0.06
POSITIVE LOGITS
debates
0.07
svp
0.06
betr
0.06
六
0.06
gek
0.06
adě
0.06
doll
0.06
itra
0.06
questi
0.06
spons
0.06
Activations Density 0.008%