INDEX
Negative Logits
RW
-0.08
bewusst
-0.08
berücksichtigt
-0.08
entionally
-0.08
liminary
-0.07
]
-0.07
resulting
-0.07
UX
-0.07
totale
-0.07
ग्र
-0.07
POSITIVE LOGITS
maq
0.09
maak
0.08
iaid
0.07
buat
0.07
serta
0.07
ivad
0.07
tanpa
0.07
البر
0.07
century
0.07
天天
0.07
Activations Density 0.021%