INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Ch
    -0.07
    ch
    -0.07
    bae
    -0.07
    ++,
    -0.07
    eter
    -0.07
     bard
    -0.07
    English
    -0.07
     bilingual
    -0.07
     års
    -0.07
    ba
    -0.07
    POSITIVE LOGITS
     epä
    0.09
     ويس
    0.08
     σειρά
    0.08
    ក្រ
    0.08
     بأن
    0.08
    0.08
     ciò
    0.08
     საი
    0.08
     cárc
    0.08
    άλι
    0.08
    Act Density 0.016%

    No Known Activations