INDEX
Explanations
questions ending with 'to?'
New Auto-Interp
Negative Logits
M
1.48
ী
1.46
A
1.39
rafo
1.35
llä
1.34
C
1.34
Waar
1.28
puede
1.25
d
1.25
or
1.23
POSITIVE LOGITS
.
2.08
。
1.88
that
1.80
,
1.66
,
1.59
for
1.52
?
1.52
on
1.50
(
1.49
!
1.41
Activations Density 10.279%