INDEX
Explanations
evaluative context, justification, results
New Auto-Interp
Negative Logits
،
0.36
፣
0.31
you
0.31
]$,
0.31
azonban
0.31
हालांकि
0.30
있지만
0.28
частности
0.28
,
0.27
thì
0.27
POSITIVE LOGITS
}.
0.31
takže
0.30
predominate
0.28
'.
0.28
:).
0.28
).
0.27
morts
0.27
ങ്ങളും
0.27
ുകളും
0.26
}(\
0.26
Activations Density 0.111%