INDEX
Negative Logits
punishments
0.75
പര
0.74
concerne
0.73
verteilt
0.72
constitué
0.72
戦略
0.71
herence
0.70
ಅನುಪ
0.68
strategic
0.66
constante
0.66
POSITIVE LOGITS
underneath
0.77
low
0.76
fake
0.75
fake
0.74
Low
0.73
Fake
0.72
骗
0.71
Silk
0.68
Fake
0.67
low
0.67
Activations Density 0.047%