INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.09
     trag
    -0.07
    fragen
    -0.07
    fra
    -0.07
    خ
    -0.07
     Markt
    -0.07
    ials
    -0.07
     Под
    -0.07
    153
    -0.07
     procur
    -0.07
    POSITIVE LOGITS
     Pep
    0.08
    তার
    0.08
     việc
    0.07
     Ned
    0.07
    tml
    0.07
    ties
    0.07
    bg
    0.07
    tow
    0.07
     gri
    0.07
     Athena
    0.07
    Act Density 0.036%

    No Known Activations