INDEX
Negative Logits
تصو
-0.07
gol
-0.07
fundamental
-0.07
kemiz
-0.07
язы
-0.07
われる
-0.07
منتشر
-0.07
unfinished
-0.07
nap
-0.06
들은
-0.06
POSITIVE LOGITS
coercion
0.13
coerc
0.11
coerce
0.09
coer
0.07
coc
0.06
-orange
0.06
ectar
0.06
Action
0.06
CSR
0.06
weird
0.06
Activations Density 0.001%