INDEX
Negative Logits
t
1.28
for
1.24
ない
1.13
ために
1.12
li
0.97
trav
0.96
트는
0.94
때
0.94
1
0.94
وم
0.92
POSITIVE LOGITS
ك
1.37
$
1.13
in
1.05
↵
1.03
رة
1.00
,
0.98
;
0.96
ה
0.94
h
0.93
في
0.92
Activations Density 0.001%
t
for
ない
ために
li
trav
트는
때
1
وم
ك
$
in
↵
رة
,
;
ה
h
في