INDEX
Negative Logits
نا
0.31
.
0.29
des
0.29
dav
0.29
dan
0.28
dana
0.28
ח
0.28
dem
0.27
ders
0.26
DAN
0.26
POSITIVE LOGITS
be
0.41
ة
0.37
ва
0.35
ă
0.35
políticos
0.35
and
0.35
ą
0.34
เป็น
0.34
ב
0.33
кий
0.32
Activations Density 0.294%
نا
.
des
dav
dan
dana
ח
dem
ders
DAN
be
ة
ва
ă
políticos
and
ą
เป็น
ב
кий