INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    (argv
    -0.06
     فیلم
    -0.06
     Arbeit
    -0.06
     děl
    -0.06
     Apartment
    -0.06
     seria
    -0.06
     tekrar
    -0.06
    <Scalar
    -0.06
    ****************************************************************************
    -0.06
     अलग
    -0.06
    POSITIVE LOGITS
     Mt
    0.07
    0.07
     mo
    0.06
    0.06
    INA
    0.06
    -os
    0.06
    حدة
    0.06
     otur
    0.06
     Gur
    0.06
    0.06
    Act Density 0.001%

    No Known Activations