INDEX
    Explanations

    equal sign (=)

    New Auto-Interp
    Negative Logits
    Impact
    -0.09
    ым
    -0.08
     mõju
    -0.08
    -0.08
    的重要
    -0.08
     umbrellas
    -0.08
     impact
    -0.08
     couper
    -0.08
    -0.08
     fome
    -0.08
    POSITIVE LOGITS
     المع
    0.08
     Situ
    0.07
     soru
    0.07
     dividido
    0.07
     RHS
    0.07
     bbox
    0.07
     solved
    0.07
     Так
    0.07
    173
    0.07
     যার
    0.07
    Act Density 0.038%

    No Known Activations