INDEX
Negative Logits
donn
0.80
۰
0.79
ят
0.76
ْم
0.76
legitim
0.75
درا
0.73
有助于
0.73
0
0.73
在
0.73
ود
0.71
POSITIVE LOGITS
v
0.90
f
0.89
い
0.84
тся
0.83
ま
0.83
트
0.77
большой
0.75
ều
0.73
ção
0.71
japan
0.71
Activations Density 0.000%
donn
۰
ят
ْم
legitim
درا
有助于
0
在
ود
v
f
い
тся
ま
트
большой
ều
ção
japan