INDEX
Negative Logits
퐶
0.45
ᆸ
0.42
паліты
0.40
éget
0.40
వ్
0.39
ádz
0.39
ኞ
0.38
তারাও
0.38
𝚙
0.38
撳
0.38
POSITIVE LOGITS
durante
0.60
.
0.60
the
0.56
أثناء
0.50
podczas
0.48
The
0.47
durant
0.47
akibat
0.47
↵
0.46
during
0.46
Activations Density 0.024%