INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _up
    -0.07
     bitwise
    -0.07
     самой
    -0.06
    ("'",
    -0.06
    fox
    -0.06
    latable
    -0.06
    -0.06
    Рё
    -0.06
    MIT
    -0.06
    _FEED
    -0.06
    POSITIVE LOGITS
     numar
    0.07
     filmy
    0.06
     hotels
    0.06
    ).'
    0.06
    нолог
    0.06
    чие
    0.06
     usando
    0.06
     bothers
    0.06
     cru
    0.06
    gap
    0.06
    Act Density 0.008%

    No Known Activations