INDEX
Negative Logits
reprodu
-0.07
CON
-0.07
蜘蛛
-0.07
struct
-0.07
frame
-0.07
ww
-0.07
phạm
-0.06
!')↵↵
-0.06
rání
-0.06
izont
-0.06
POSITIVE LOGITS
уд
0.06
0.06
ENAME
0.06
hac
0.06
way
0.06
щодо
0.06
quart
0.06
hanging
0.06
fearful
0.06
imum
0.06
Activations Density 0.001%