INDEX
Negative Logits
in
1.49
ن
1.43
ন
1.23
ע
1.23
ল
1.16
लिन
1.14
inę
1.14
न
1.13
ל
1.13
ल
1.12
POSITIVE LOGITS
’
1.26
'
1.12
<
1.01
`
1.00
vice
0.98
>
0.97
Vice
0.96
-
0.95
t
0.93
Vice
0.91
Activations Density 0.002%
in
ن
ন
ע
ল
लिन
inę
न
ל
ल
’
'
<
`
vice
>
Vice
-
t
Vice