INDEX
Negative Logits
ोल
0.91
س
0.91
ITO
0.89
baiki
0.88
larla
0.86
स
0.86
ado
0.85
った
0.83
lara
0.82
할
0.82
POSITIVE LOGITS
explicit
1.05
Explicit
1.03
Explicit
0.99
explicitly
0.91
explicit
0.91
顕
0.80
明确
0.68
ذلك
0.63
إ
0.62
bewusst
0.62
Activations Density 0.031%