INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     hate
    -0.07
     shirt
    -0.07
     bunk
    -0.07
    	dd
    -0.07
    单品
    -0.07
    bull
    -0.07
    และ
    -0.07
     hose
    -0.06
     walnut
    -0.06
     ";
    ↵
    -0.06
    POSITIVE LOGITS
     feminists
    0.07
    开始了
    0.07
    参加会议
    0.07
     Petersburg
    0.06
    ernetes
    0.06
    影響
    0.06
     طبيعي
    0.06
    اوي
    0.06
    がありました
    0.06
    0.06
    Act Density 0.002%

    No Known Activations