INDEX
Negative Logits
↵
1.53
i
1.03
wichtig
0.95
,
0.91
x
0.88
ي
0.82
t
0.73
IS
0.72
DAG
0.72
↵↵
0.71
POSITIVE LOGITS
as
0.98
د
0.96
ある
0.93
ご
0.81
유사
0.80
大
0.80
あまり
0.80
リ
0.78
お
0.76
見
0.76
Activations Density 0.007%
↵
i
wichtig
,
x
ي
t
IS
DAG
↵↵
as
د
ある
ご
유사
大
あまり
リ
お
見