INDEX
Explanations
names followed by punctuation or verbs
New Auto-Interp
Negative Logits
camber
0.19
geändert
0.19
फ्टी
0.18
Allemagne
0.18
usamos
0.18
resumen
0.17
cribing
0.17
alrededores
0.17
stupe
0.17
conclusão
0.17
POSITIVE LOGITS
,
0.22
.
0.21
،
0.21
and
0.20
?
0.19
:
0.19
और
0.19
!
0.18
,
0.18
যিনি
0.18
Activations Density 0.094%