INDEX
Explanations
email, URLs, or code paths
URLs starting with https
New Auto-Interp
Negative Logits
us
0.49
än
0.47
ht
0.47
ai
0.46
vis
0.43
ität
0.43
exempel
0.43
’
0.43
mäng
0.43
ia
0.42
POSITIVE LOGITS
ל
1.05
ב
0.96
מ
0.80
י
0.77
ی
0.77
ע
0.73
אם
0.73
یت
0.71
し
0.71
ب
0.69
Activations Density 0.014%