INDEX
Negative Logits
exacerb
-0.09
Baseline
-0.07
হাস
-0.07
tapered
-0.07
еке
-0.07
Infl
-0.07
accueill
-0.07
flesh
-0.07
.src
-0.07
Aug
-0.07
POSITIVE LOGITS
Kontrolle
0.14
domination
0.14
власть
0.14
dominance
0.13
dominate
0.13
overseeing
0.13
dominates
0.12
السيطرة
0.12
domina
0.12
dominar
0.12
Activations Density 0.058%