INDEX
Negative Logits
Deque
-0.06
国
-0.06
Pri
-0.06
(worker
-0.06
vicious
-0.06
inher
-0.06
username
-0.06
notamment
-0.06
both
-0.06
Hen
-0.06
POSITIVE LOGITS
angs
0.07
ازه
0.07
utral
0.07
ments
0.06
(?)
0.06
0.06
있
0.06
無し
0.06
Spell
0.06
0.06
Activations Density 0.007%