INDEX
Negative Logits
h
0.74
doesn
0.68
aren
0.68
improves
0.63
all
0.62
don
0.61
didn
0.60
expres
0.59
exist
0.59
больше
0.57
POSITIVE LOGITS
ські
0.61
Synod
0.60
льні
0.59
थ्री
0.58
तयार
0.58
𝐝
0.58
কে
0.58
ნიშვნელ
0.57
ไหน
0.57
當
0.57
Activations Density 0.006%