INDEX
Explanations
systemic issues, barriers, failures
New Auto-Interp
Negative Logits
يل
1.03
quela
1.02
زيد
0.99
İlç
0.98
其他
0.97
ير
0.95
Це
0.93
ב
0.93
زي
0.92
Ри
0.91
POSITIVE LOGITS
)
1.16
]
0.96
{0.92
=
0.90
.
0.89
0.86
<0xBF>
0.85
5
0.85
ak
0.82
_
0.80
Activations Density 0.199%