INDEX
    Explanations

    foreign languages

    New Auto-Interp
    Negative Logits
     sheep
    -0.09
     indiv
    -0.08
     दीप
    -0.08
     Sheep
    -0.08
     भार
    -0.08
     π
    -0.08
     ಬೇ
    -0.08
     xa
    -0.07
     जाये
    -0.07
     अप्र
    -0.07
    POSITIVE LOGITS
    iziert
    0.08
     translated
    0.08
    0.08
     noc
    0.08
    Translated
    0.08
    .Class
    0.07
     nach
    0.07
    0.07
     corrupted
    0.07
     Everything
    0.07
    Act Density 0.050%

    No Known Activations