INDEX
Negative Logits
ü
0.84
ä
0.81
that
0.77
í
0.77
w
0.77
r
0.73
ö
0.73
什麼
0.71
t
0.71
m
0.71
POSITIVE LOGITS
行う
0.62
باشند
0.61
부에
0.60
OfInterest
0.59
raggi
0.58
ಗಾಗಿ
0.58
akha
0.58
u
0.57
の高い
0.56
ی
0.56
Activations Density 0.015%
ü
ä
that
í
w
r
ö
什麼
t
m
行う
باشند
부에
OfInterest
raggi
ಗಾಗಿ
akha
u
の高い
ی