INDEX
Negative Logits
wonder
-0.08
_require
-0.08
多久
-0.08
jö
-0.08
Helpful
-0.08
achar
-0.08
Grâce
-0.07
.С
-0.07
వ
-0.07
தி
-0.07
POSITIVE LOGITS
targets
0.13
targets
0.13
대상으로
0.13
targeting
0.13
_targets
0.12
対象
0.12
Targets
0.12
Targets
0.12
victims
0.12
cibl
0.11
Activations Density 0.079%