INDEX
Negative Logits
ин
0.42
au
0.42
plush
0.42
skih
0.42
ouvoir
0.41
atik
0.41
อัน
0.40
bespoke
0.39
owy
0.39
penchant
0.39
POSITIVE LOGITS
Instead
0.58
Theft
0.51
Internship
0.47
defraud
0.47
Ignoring
0.46
Subtract
0.45
Indicator
0.44
ERA
0.43
incarceration
0.43
Emission
0.42
Activations Density 0.001%