INDEX
Negative Logits
टी
0.77
你
0.63
和他
0.62
bullshit
0.59
ათ
0.58
ัน
0.57
ول
0.56
აბ
0.56
introducir
0.56
نت
0.55
POSITIVE LOGITS
ють
0.73
்ய
0.72
с
0.71
in
0.69
less
0.68
se
0.67
скольку
0.65
land
0.65
s
0.65
н
0.64
Activations Density 0.001%
टी
你
和他
bullshit
ათ
ัน
ول
აბ
introducir
نت
ють
்ய
с
in
less
se
скольку
land
s
н