INDEX
Negative Logits
parole
-0.07
izin
-0.07
YA
-0.07
selectors
-0.07
념
-0.06
communicates
-0.06
UDIO
-0.06
Porn
-0.06
tomatoes
-0.06
protesting
-0.06
POSITIVE LOGITS
Is
0.07
ydk
0.06
stif
0.06
emot
0.06
subsidiary
0.06
그는
0.06
σιμοποι
0.06
Instead
0.06
JM
0.06
soils
0.06
Activations Density 0.090%