INDEX
Negative Logits
-",
-0.07
nd
-0.07
소개
-0.07
rover
-0.06
Copper
-0.06
harass
-0.06
Nd
-0.06
code
-0.06
Tho
-0.06
religion
-0.06
POSITIVE LOGITS
міні
0.08
refin
0.07
ΕΙ
0.07
شر
0.07
žil
0.06
ุม
0.06
мат
0.06
ें
0.06
unc
0.06
الجم
0.06
Activations Density 0.001%