INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     inp
    -0.08
    mere
    -0.07
     tvor
    -0.06
     stdin
    -0.06
     После
    -0.06
     استخدام
    -0.06
    -entry
    -0.06
    녕하세요
    -0.06
    .resume
    -0.06
    genesis
    -0.06
    POSITIVE LOGITS
     Chủ
    0.07
    ))(
    0.07
    0.06
    ifes
    0.06
    0.06
    .damage
    0.06
    oyer
    0.06
     desert
    0.06
     باشند
    0.06
    108
    0.06
    Act Density 0.002%

    No Known Activations