INDEX
Negative Logits
assassination
-0.08
suicidal
-0.07
"F
-0.07
Liz
-0.07
SF
-0.07
بين
-0.07
sea
-0.07
Textarea
-0.06
ADF
-0.06
ACES
-0.06
POSITIVE LOGITS
ひと
0.06
famille
0.06
decl
0.06
forces
0.06
+',
0.06
française
0.06
vulner
0.06
_THROW
0.06
склада
0.06
流量
0.06
Activations Density 0.015%