INDEX
Explanations
possessive pronoun + person/entity
New Auto-Interp
Negative Logits
pca
0.94
ת
0.87
про
0.75
خة
0.74
นาม
0.73
Rxg
0.69
номи
0.69
pic
0.69
기업
0.69
Hakk
0.69
POSITIVE LOGITS
aquellos
0.91
opinión
0.82
aquel
0.80
aquellas
0.78
podrás
0.78
narrativa
0.77
aquella
0.77
ceil
0.76
précédents
0.76
mujeres
0.75
Activations Density 0.002%