INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     provocative
    -0.09
     mor
    -0.09
    qui
    -0.09
    Ав
    -0.08
     кожи
    -0.08
     Autonomous
    -0.08
     provoking
    -0.08
    оти
    -0.08
    пат
    -0.08
     tær
    -0.08
    POSITIVE LOGITS
    0.08
     Trag
    0.08
     Stanley
    0.08
    0.08
    bv
    0.07
    0.07
     poetry
    0.07
     stu
    0.07
    zt
    0.07
     Marian
    0.07
    Act Density 0.001%

    No Known Activations