INDEX
Negative Logits
sesso
-0.07
beaucoup
-0.06
災
-0.06
بود
-0.06
.proc
-0.06
Arbeit
-0.06
sophistication
-0.06
oodoo
-0.06
-0.06
isz
-0.06
POSITIVE LOGITS
affirm
0.12
affirmed
0.11
affirmation
0.10
afirm
0.08
reaff
0.08
утвержд
0.07
m
0.07
죽
0.06
玉
0.06
Statements
0.06
Activations Density 0.005%