INDEX
Negative Logits
d
0.48
ser
0.47
tenance
0.46
ding
0.46
n
0.46
dor
0.45
dan
0.45
ter
0.45
lings
0.45
nar
0.44
POSITIVE LOGITS
pping
0.68
pped
0.60
pper
0.59
aded
0.55
udge
0.54
atham
0.54
tämän
0.51
ading
0.51
ppies
0.50
ppers
0.50
Activations Density 0.359%