INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    feat
    -0.07
    si
    -0.07
    park
    -0.07
    _c
    -0.07
    passes
    -0.07
    си
    -0.07
    don
    -0.07
    -0.07
    _pass
    -0.07
     sie
    -0.07
    POSITIVE LOGITS
     negativo
    0.09
     negativity
    0.09
     disappointment
    0.08
     negativ
    0.08
    ája
    0.08
     негатив
    0.08
     gesproken
    0.08
     negatively
    0.08
    0.08
     Negative
    0.08
    Act Density 0.020%

    No Known Activations