INDEX
Negative Logits
Damage
-0.07
jokes
-0.07
吸取
-0.07
الدكت
-0.07
darker
-0.07
/code
-0.06
正常
-0.06
enville
-0.06
ful
-0.06
诘
-0.06
POSITIVE LOGITS
orc
0.07
(plan
0.07
erais
0.07
stash
0.07
hearings
0.07
roast
0.07
uthor
0.07
Miss
0.06
stirring
0.06
automobiles
0.06
Activations Density 0.038%