INDEX
Explanations
proper nouns and abbreviations
New Auto-Interp
Negative Logits
ח
0.25
ла
0.23
ק
0.20
ке
0.20
ро
0.20
ле
0.19
ین
0.19
ни
0.18
ர்
0.18
ون
0.18
POSITIVE LOGITS
of
0.29
to
0.26
be
0.24
fácil
0.23
इस्तेमाल
0.21
của
0.21
!
0.21
jeśli
0.20
बाद
0.20
än
0.20
Activations Density 0.000%