INDEX
    Explanations

    simple, low-effort, low-cost

    New Auto-Interp
    Negative Logits
    substitution
    1.06
    favor
    1.05
     MIUI
    1.03
    Salman
    1.02
     preferring
    1.00
    Mozilla
    1.00
    chatbot
    0.99
     لیون
    0.99
    despite
    0.99
    thanks
    0.99
    POSITIVE LOGITS
    感覺
    1.07
    没什么
    0.93
    感觉
    0.92
    凄い
    0.92
    绝对
    0.90
    也不知道
    0.89
    没人
    0.86
    eway
    0.85
    充满了
    0.83
    强度
    0.83
    Act Density 0.111%

    No Known Activations