INDEX
Negative Logits
precip
-0.07
laat
-0.07
“Well
-0.07
rehab
-0.06
facilitating
-0.06
beef
-0.06
open
-0.06
HAL
-0.06
"Well
-0.06
Fuck
-0.06
POSITIVE LOGITS
diverse
0.08
ます
0.08
MIC
0.07
lille
0.07
تر
0.07
dre
0.06
沃
0.06
소
0.06
e
0.06
تسم
0.06
Activations Density 0.009%