INDEX
Negative Logits
ות
0.53
지
0.50
وں
0.49
ul
0.47
서
0.46
त्र
0.43
기를
0.43
ું
0.41
ą
0.41
र
0.41
POSITIVE LOGITS
0.51
been
0.48
_
0.38
not
0.38
)
0.37
؛
0.35
،
0.35
Been
0.34
可以让
0.34
BEEN
0.34
Activations Density 0.000%
ות
지
وں
ul
서
त्र
기를
ું
ą
र
been
_
not
)
؛
،
Been
可以让
BEEN