INDEX
    Explanations

    arithmetic calculations

    New Auto-Interp
    Negative Logits
    bewer
    -0.09
     WHO
    -0.08
     bahagi
    -0.08
     autrement
    -0.08
     אלא
    -0.08
     لیکن
    -0.08
     ഭാഗമായി
    -0.08
     graag
    -0.08
     بغیر
    -0.08
     العم
    -0.08
    POSITIVE LOGITS
    Indeed
    0.08
    0.08
    Explanation
    0.08
    0.08
    Correct
    0.08
    ployed
    0.07
    75
    0.07
    Nec
    0.07
     fluent
    0.07
     Explanation
    0.07
    Act Density 0.167%

    No Known Activations