INDEX
Negative Logits
proof
0.55
broni
0.54
ী
0.54
و
0.53
৭
0.52
evil
0.52
unavoid
0.52
pouvoir
0.51
am
0.51
bullpen
0.50
POSITIVE LOGITS
easily
0.63
suisse
0.61
hardly
0.59
fácilmente
0.58
很容易
0.57
ˡ
0.57
بسه
0.55
看出
0.54
अगदी
0.54
вна
0.54
Activations Density 0.483%