INDEX
Negative Logits
Astrology
-0.09
据
-0.08
hers
-0.08
ρηση
-0.08
Ignoring
-0.07
Anad
-0.07
ली
-0.07
معل
-0.07
rove
-0.07
покупать
-0.07
POSITIVE LOGITS
0.08
ess
0.07
cari
0.07
980
0.07
ens
0.07
百
0.07
artikel
0.07
mixt
0.07
microphones
0.07
েই
0.07
Activations Density 0.002%