INDEX
Negative Logits
plush
-0.10
gifs
-0.08
,content
-0.07
果
-0.07
若
-0.07
pony
-0.06
段
-0.06
(display
-0.06
forte
-0.06
폐
-0.06
POSITIVE LOGITS
Business
0.08
inction
0.07
usual
0.07
October
0.07
それでも
0.07
bingo
0.07
médico
0.07
랔
0.07
Internal
0.07
끓
0.06
Activations Density 0.001%