INDEX
Negative Logits
pomo
-0.09
Gu
-0.08
ceva
-0.08
પૂ
-0.08
બનાવ
-0.08
Teng
-0.08
biss
-0.07
饭
-0.07
Hoi
-0.07
იის
-0.07
POSITIVE LOGITS
0.08
instructed
0.08
educated
0.07
indul
0.07
indent
0.07
рассмотр
0.07
프
0.07
'"'
0.07
weighed
0.07
displaystyle
0.07
Activations Density 0.315%