INDEX
Negative Logits
od
0.35
ra
0.34
ena
0.33
A
0.33
R
0.32
ant
0.30
bilingual
0.30
س
0.30
passo
0.29
'";
0.29
POSITIVE LOGITS
ේ
0.29
는데
0.28
тов
0.26
тами
0.26
щения
0.25
ﻂ
0.25
shells
0.25
ке
0.24
к
0.24
ют
0.24
Activations Density 0.042%
od
ra
ena
A
R
ant
bilingual
س
passo
'";
ේ
는데
тов
тами
щения
ﻂ
shells
ке
к
ют