INDEX
Negative Logits
Φ
-0.08
Φ
-0.08
ry
-0.07
MPO
-0.07
swallowing
-0.07
estudo
-0.07
Raz
-0.07
xx
-0.07
Hit
-0.07
Ey
-0.07
POSITIVE LOGITS
Allerg
0.08
Miriam
0.08
disclaim
0.08
оформ
0.08
形式
0.08
Dover
0.08
ก็
0.08
ขอ
0.07
назвать
0.07
называют
0.07
Activations Density 0.017%