INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    മുഖ
    -0.09
     conciertos
    -0.08
     Kumar
    -0.08
    contain
    -0.08
     podstaw
    -0.08
     Mum
    -0.08
    hug
    -0.08
     boring
    -0.08
     بني
    -0.08
     جيڪڏهن
    -0.08
    POSITIVE LOGITS
    .us
    0.08
     idle
    0.08
     unused
    0.08
     leftover
    0.08
     unidentified
    0.08
    0.08
    _id
    0.07
    ?id
    0.07
    用于
    0.07
    _unused
    0.07
    Act Density 0.026%

    No Known Activations