INDEX
Negative Logits
emphasizing
-0.09
пр
-0.08
होते
-0.08
जोर
-0.07
helping
-0.07
-elles
-0.07
Flowers
-0.07
hombre
-0.07
าะ
-0.07
che
-0.07
POSITIVE LOGITS
outright
0.08
downright
0.08
Repair
0.08
bab
0.08
babu
0.08
phans
0.08
tadalafil
0.07
াশি
0.07
baz
0.07
asim
0.07
Activations Density 0.021%