INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Jul
    -0.08
     posl
    -0.08
     Shelley
    -0.08
     pocket
    -0.08
     kepada
    -0.08
    /context
    -0.07
     lay
    -0.07
     하면
    -0.07
     برابر
    -0.07
     खत
    -0.07
    POSITIVE LOGITS
     preferential
    0.08
    います
    0.08
    0.08
    的是
    0.08
     preferred
    0.07
    paro
    0.07
    Spanish
    0.07
    yle
    0.07
     utilizing
    0.07
     equilibrium
    0.07
    Act Density 0.010%

    No Known Activations