INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
an
1.35
all
1.07
ف
0.98
l
0.98
А
0.97
it
0.97
A
0.97
I
0.95
as
0.93
the
0.93
POSITIVE LOGITS
คือ
1.13
nisid
1.11
csak
1.07
ancji
1.06
に
1.05
plufieurs
1.04
marquée
1.03
directa
1.02
aimé
1.02
ploch
0.97
Activations Density 0.001%