INDEX
Negative Logits
deflected
0.67
让自己
0.65
sends
0.65
dejan
0.63
Suicide
0.63
hãy
0.61
ব্যাপারটা
0.59
sami
0.58
초
0.57
laissez
0.57
POSITIVE LOGITS
于
0.84
itionally
0.77
pués
0.76
neath
0.76
vore
0.75
ැන
0.74
於
0.71
duğ
0.71
々の
0.71
ursa
0.69
Activations Density 0.275%