INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Apprent
    -0.08
     печ
    -0.08
     disen
    -0.08
    -0.07
     Apprec
    -0.07
    建国
    -0.07
    endra
    -0.07
    -0.07
     Fight
    -0.07
    leigh
    -0.07
    POSITIVE LOGITS
     informal
    0.08
    لاقات
    0.07
     '.$
    0.07
     insult
    0.07
    تر
    0.07
    ские
    0.07
     besser
    0.07
    ultural
    0.07
    (term
    0.07
    Italian
    0.06
    Act Density 0.004%

    No Known Activations