INDEX
Negative Logits
brochure
-0.08
brochures
-0.08
OPY
-0.08
טע
-0.08
OKIE
-0.08
finesse
-0.08
Module
-0.07
SITE
-0.07
변경
-0.07
మ
-0.07
POSITIVE LOGITS
violent
0.12
attacking
0.11
aggression
0.11
fury
0.11
instincts
0.10
violence
0.10
�
0.10
hatred
0.10
怒
0.10
savage
0.10
Activations Density 0.028%