INDEX
Negative Logits
arin
0.75
il
0.69
ate
0.66
laş
0.66
lių
0.66
all
0.65
alla
0.64
Los
0.62
alid
0.62
and
0.61
POSITIVE LOGITS
有
0.83
وي
0.69
ر
0.69
聪
0.68
ولي
0.68
后
0.66
前後
0.66
ِي
0.65
不
0.64
ва
0.64
Activations Density 0.001%
arin
il
ate
laş
lių
all
alla
Los
alid
and
有
وي
ر
聪
ولي
后
前後
ِي
不
ва