INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
ul
1.19
ور
1.17
as
1.07
im
0.95
ad
0.95
und
0.94
ug
0.91
o
0.90
amp
0.90
id
0.89
POSITIVE LOGITS
to
1.24
۹
1.24
and
1.22
ה
1.20
sired
1.05
ン
1.04
ツ
1.04
$
1.01
色の
0.98
نی
0.96
Activations Density 0.000%