INDEX
Negative Logits
Зак
0.40
लाहिड़ी
0.39
token
0.38
necessariamente
0.37
束
0.37
عفوا
0.37
饶
0.37
দিলাম
0.36
闭
0.36
حية
0.36
POSITIVE LOGITS
wrong
0.60
Wrong
0.55
Bad
0.55
Wrong
0.52
Bad
0.51
bad
0.50
wrong
0.50
resisted
0.50
싫
0.49
BAD
0.49
Activations Density 0.010%