INDEX
Negative Logits
her
-0.08
.She
-0.08
geste
-0.08
sebagai
-0.08
göz
-0.08
hər
-0.07
Bearing
-0.07
berb
-0.07
виды
-0.07
contraste
-0.07
POSITIVE LOGITS
)"↵
0.10
砖
0.09
>"↵
0.08
)"↵↵
0.08
attempted
0.08
inja
0.08
?"↵
0.08
slick
0.08
ijnen
0.08
毒
0.08
Activations Density 0.003%