INDEX
    Explanations

    contrast then attribute

    New Auto-Interp
    Negative Logits
    非常に
    0.93
     чрезвы
    0.83
    也非常
    0.79
    是非常
    0.78
     بسیار
    0.77
    Очень
    0.73
    就是一个
    0.72
    极其
    0.72
    非常的
    0.71
     veoma
    0.71
    POSITIVE LOGITS
     ChatGPT
    0.92
     deny
    0.90
     Nvidia
    0.90
     OpenAI
    0.90
     Nietzsche
    0.89
     GDPR
    0.87
     headwinds
    0.86
     denies
    0.84
     Elon
    0.83
     Replacing
    0.82
    Act Density 0.193%

    No Known Activations