INDEX
    Explanations

    verbs and their endings

    New Auto-Interp
    Negative Logits
     drawn
    0.59
     RE
    0.58
    0.57
    idiu
    0.56
     cac
    0.55
     pseudo
    0.54
     und
    0.54
     lash
    0.54
    berg
    0.53
    ovan
    0.53
    POSITIVE LOGITS
    ть
    1.46
    тель
    1.40
    йте
    1.33
    нием
    1.29
    ния
    1.27
    ться
    1.26
    ння
    1.23
    ние
    1.21
    вшие
    1.19
    вший
    1.17
    Act Density 0.027%

    No Known Activations