INDEX
Negative Logits
CPA
-0.08
human
-0.08
accept
-0.07
ldr
-0.07
Romeo
-0.07
opět
-0.07
nhau
-0.06
ACCEPT
-0.06
아닌
-0.06
عزیز
-0.06
POSITIVE LOGITS
eea
0.06
imony
0.06
lobals
0.06
yan
0.06
lleg
0.06
ponsors
0.06
/sources
0.06
/st
0.06
ór
0.06
альному
0.05
Activations Density 0.026%