INDEX
Negative Logits
kö
-0.07
_IND
-0.07
-0.06
히
-0.06
(builder
-0.06
Fallen
-0.06
にも
-0.06
-0.06
يلا
-0.06
貨
-0.06
POSITIVE LOGITS
Infect
0.07
Ethics
0.07
licken
0.07
मत
0.07
vocational
0.07
قوان
0.07
uniform
0.06
APE
0.06
-blocking
0.06
Princeton
0.06
Activations Density 0.004%