INDEX
Negative Logits
考核
0.53
infirm
0.52
Simons
0.52
HMO
0.50
Brahmin
0.50
întâ
0.50
morale
0.49
siglas
0.49
stagione
0.49
moan
0.49
POSITIVE LOGITS
То
0.59
ש
0.53
ла
0.52
ک
0.47
Ul
0.47
them
0.45
Ö
0.45
任务
0.44
sensor
0.44
Очень
0.43
Activations Density 0.000%