INDEX
Negative Logits
Myself
-0.10
安徽
-0.08
써
-0.08
aud
-0.08
乃
-0.08
imitation
-0.07
costume
-0.07
Jac
-0.07
Karen
-0.07
Pup
-0.07
POSITIVE LOGITS
व्यवहार
0.08
治
0.07
zn
0.07
skid
0.07
चल
0.07
byd
0.07
-minded
0.07
ill
0.07
.zk
0.06
remed
0.06
Activations Density 0.127%