INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    2.27
    ز
    2.16
    та
    1.95
     спасибо
    1.95
    ט
    1.95
    ется
    1.92
     kabhi
    1.89
     husky
    1.89
    1.89
     nombr
    1.87
    POSITIVE LOGITS
    för
    1.97
    ible
    1.76
    ://
    1.75
    mile
    1.71
    filled
    1.70
    ν
    1.70
    ing
    1.66
    makers
    1.66
    mitting
    1.64
    up
    1.61
    Act Density 0.125%

    No Known Activations