INDEX
Explanations
dialogue attribution for names
New Auto-Interp
Negative Logits
%
0.27
).
0.23
)
0.22
även
0.20
ஆகியவை
0.20
x
0.20
>
0.20
),
0.19
]
0.19
teie
0.19
POSITIVE LOGITS
ando
0.19
nie
0.18
ceau
0.18
abeth
0.18
aza
0.18
himself
0.17
ian
0.17
aki
0.17
нау
0.17
andin
0.17
Activations Density 0.231%