INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     principaux
    -0.09
    øte
    -0.08
    write
    -0.08
    begr
    -0.08
     issus
    -0.08
    pell
    -0.07
     altos
    -0.07
    liners
    -0.07
    infl
    -0.07
    -0.07
    POSITIVE LOGITS
     بالج
    0.08
    0.08
     и
    0.08
     vaihtoe
    0.08
    、この
    0.07
     opción
    0.07
    0.07
    سبة
    0.07
     cosa
    0.07
     competing
    0.07
    Act Density 0.025%

    No Known Activations