INDEX
Negative Logits
दूस
-0.08
vein
-0.08
karma
-0.08
acquaintances
-0.07
connect
-0.07
Spam
-0.07
shakes
-0.07
सोशल
-0.07
цель
-0.07
еше
-0.07
POSITIVE LOGITS
imper
0.08
foc
0.08
fi
0.08
Aquest
0.07
remarked
0.07
Pixels
0.07
Inverse
0.07
Appar
0.07
okup
0.07
horr
0.07
Activations Density 0.001%