INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    али
    -0.07
    bove
    -0.07
    /full
    -0.07
     agree
    -0.07
    альне
    -0.07
     pharmac
    -0.07
    naments
    -0.06
     sentenced
    -0.06
     pas
    -0.06
    pc
    -0.06
    POSITIVE LOGITS
    ])[
    0.06
     PACKET
    0.06
    σμός
    0.06
    cast
    0.06
     Activation
    0.06
     qw
    0.06
     مشکل
    0.06
     TreeMap
    0.06
     گفت
    0.06
    _ul
    0.06
    Act Density 0.004%

    No Known Activations