INDEX
Negative Logits
אס
0.43
ERTS
0.42
Van
0.42
罗斯
0.40
VAN
0.39
assertArg
0.39
Psalm
0.39
Nic
0.38
Nik
0.38
Pole
0.37
POSITIVE LOGITS
sexually
0.38
Shepherd
0.36
endien
0.35
kec
0.35
ot
0.34
dil
0.34
켜
0.34
qu
0.34
cor
0.33
overhead
0.33
Activations Density 0.013%