INDEX
Explanations
conditional phrases and logical structures
New Auto-Interp
Negative Logits
AnchorStyles
-0.75
that
-0.63
propOrder
-0.59
chứ
-0.54
nahilalakip
-0.52
Respectfully
-0.50
annica
-0.50
ของคุณ
-0.49
but
-0.49
المعيارى
-0.49
POSITIVE LOGITS
terdapat
0.65
мы
0.65
ia
0.65
они
0.61
можно
0.61
этот
0.61
существует
0.61
situation
0.60
οι
0.60
tämä
0.59
Activations Density 0.026%