INDEX
Negative Logits
Pic
-0.08
Ly
-0.08
tex
-0.08
Execut
-0.07
782
-0.07
杀
-0.07
شت
-0.07
452
-0.07
Ly
-0.07
=l
-0.07
POSITIVE LOGITS
δε
0.08
μή
0.08
hinder
0.08
0.07
Tuy
0.07
polyurethane
0.07
vestib
0.07
nou
0.07
toothpaste
0.07
Hahn
0.07
Activations Density 0.003%