INDEX
Explanations
pronouns at start of clauses
New Auto-Interp
Negative Logits
it
0.93
م
0.88
ט
0.84
ر
0.76
ום
0.73
ف
0.73
Μ
0.73
ه
0.72
ിക്ക
0.71
ਸ
0.68
POSITIVE LOGITS
dec
1.00
ni
0.95
devices
0.92
d
0.92
daten
0.91
ca
0.89
g
0.89
data
0.88
da
0.88
den
0.86
Activations Density 0.099%