INDEX
Negative Logits
ת
0.48
ּ
0.45
వారు
0.43
ุ
0.42
dodge
0.42
ern
0.40
0.40
ד
0.40
ﺩ
0.40
ತ್ಮ
0.39
POSITIVE LOGITS
Purchases
0.51
évident
0.47
références
0.46
merda
0.45
Blur
0.44
correctes
0.44
よね
0.44
wanting
0.43
multe
0.43
blindness
0.43
Activations Density 0.003%