INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    3
    -0.10
    2
    -0.07
     líder
    -0.07
     نیرو
    -0.07
     III
    -0.07
    ीब
    -0.07
     unlike
    -0.07
    ²
    -0.07
     Bee
    -0.07
    u
    -0.06
    POSITIVE LOGITS
     an
    0.20
    An
    0.14
     An
    0.13
    —an
    0.11
     AN
    0.11
    >An
    0.10
    /an
    0.10
    	an
    0.10
    -An
    0.09
    EN
    0.09
    Act Density 0.290%

    No Known Activations