INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Gu
    -0.08
     gu
    -0.08
     frontal
    -0.08
     dirigente
    -0.08
     introduction
    -0.08
    pecia
    -0.07
     أسر
    -0.07
     sewer
    -0.07
     ورود
    -0.07
     Look
    -0.07
    POSITIVE LOGITS
     무료
    0.08
    금을
    0.08
    0.08
    בלים
    0.08
    Film
    0.08
    μη
    0.08
     inclusión
    0.08
    Contained
    0.08
     ücretsiz
    0.07
    thi
    0.07
    Act Density 0.006%

    No Known Activations