INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     collo
    -0.08
     sak
    -0.08
    -0.07
     prä
    -0.07
    十分
    -0.07
     Gal
    -0.07
     ing
    -0.07
     mutually
    -0.07
     धो
    -0.07
    เด
    -0.07
    POSITIVE LOGITS
     Mother
    0.09
     Dab
    0.08
    0.08
    DEBUG
    0.07
     Alpine
    0.07
     בד
    0.07
     anest
    0.07
     Cald
    0.07
     حب
    0.07
     Nig
    0.07
    Act Density 0.175%

    No Known Activations