INDEX
Explanations
'that' followed by specific entities
New Auto-Interp
Negative Logits
o
0.80
c
0.76
ول
0.73
ী
0.71
I
0.68
ة
0.67
r
0.64
ो
0.64
كة
0.64
I
0.64
POSITIVE LOGITS
一方で
0.93
然而
0.83
不仅
0.81
nimi
0.80
在这种
0.79
τές
0.79
že
0.77
并将
0.77
并在
0.77
并不是
0.76
Activations Density 0.346%