INDEX
Negative Logits
ad
0.53
ik
0.52
ak
0.51
ag
0.50
u
0.47
क
0.44
ک
0.44
ק
0.42
an
0.41
ir
0.40
POSITIVE LOGITS
ينات
0.29
文学
0.28
知道
0.27
是最
0.27
خدام
0.27
ным
0.26
다면
0.26
자와
0.26
ного
0.26
論文
0.26
Activations Density 0.006%
ad
ik
ak
ag
u
क
ک
ק
an
ir
ينات
文学
知道
是最
خدام
ным
다면
자와
ного
論文