INDEX
Explanations
Catalan/Spanish place names
New Auto-Interp
Negative Logits
e
1.16
↵
1.05
c
1.05
g
1.03
i
1.02
ia
0.97
a
0.96
ק
0.94
ihe
0.92
as
0.89
POSITIVE LOGITS
.
0.98
ਰ
0.98
지만
0.95
好
0.94
いる
0.89
ות
0.89
টি
0.88
it
0.87
ים
0.86
时候
0.85
Activations Density 0.000%