INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     SIS
    -0.08
    بدو
    -0.07
     Clearly
    -0.07
    SR
    -0.07
     illet
    -0.07
    naud
    -0.07
    Distinct
    -0.07
     xa
    -0.07
    -0.07
    POSITIVE LOGITS
     oblige
    0.11
    帮助
    0.10
     помочь
    0.10
    .help
    0.10
     ayudarte
    0.10
     membantu
    0.10
    ช่วย
    0.10
     ayudar
    0.09
     hulp
    0.09
     도움이
    0.09
    Act Density 0.012%

    No Known Activations