INDEX
Negative Logits
.A
-0.08
.↵
-0.07
.К
-0.07
.П
-0.07
.%
-0.07
.T
-0.07
.^
-0.07
.No
-0.07
.W
-0.06
.M
-0.06
POSITIVE LOGITS
",
0.08
homosexuals
0.07
'"
0.07
retweeted
0.07
們
0.07
ediální
0.07
")↵
0.07
")
0.06
_present
0.06
"-
0.06
Activations Density 0.304%