INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    主义
    -0.08
     stalking
    -0.08
     تعب
    -0.07
     φορ
    -0.07
     mits
    -0.07
     szy
    -0.07
    secution
    -0.07
     compelling
    -0.07
     malt
    -0.07
     erfüllt
    -0.07
    POSITIVE LOGITS
     chaired
    0.08
    0.08
     Blue
    0.08
     topper
    0.08
    Blue
    0.07
    /blog
    0.07
    ке
    0.07
    -blue
    0.07
     друзей
    0.07
    Charm
    0.07
    Act Density 0.009%

    No Known Activations