INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    anda
    -0.07
    spin
    -0.06
    __)↵↵↵
    -0.06
    TEGR
    -0.06
     схем
    -0.06
     preferable
    -0.06
     mint
    -0.06
    _DIP
    -0.06
     bent
    -0.06
    POSITIVE LOGITS
    Translatef
    0.08
    .Toast
    0.07
    inning
    0.07
    /Footer
    0.07
    0.06
     American
    0.06
     newUser
    0.06
    _container
    0.06
     borç
    0.06
     }//
    0.06
    Act Density 0.025%

    No Known Activations