INDEX
Negative Logits
vela
-0.08
nda
-0.08
fuscated
-0.08
Fo
-0.08
misleading
-0.07
curl
-0.07
思
-0.07
榜
-0.07
Authent
-0.07
ronda
-0.07
POSITIVE LOGITS
Fra
0.09
Wy
0.08
Wy
0.08
/>
0.07
�
0.07
wys
0.07
‚
0.07
Hay
0.07
peoples
0.07
им
0.07
Activations Density 0.001%