INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     masing
    -0.08
    вание
    -0.08
     lekk
    -0.08
     lichte
    -0.08
     dink
    -0.08
     auditing
    -0.08
     yaitu
    -0.07
     knee
    -0.07
     aldr
    -0.07
    фикация
    -0.07
    POSITIVE LOGITS
    anza
    0.11
    ata
    0.11
    ATA
    0.08
    anz
    0.08
    ierte
    0.08
    ierge
    0.08
    ellan
    0.08
     Elo
    0.08
    uz
    0.08
    in
    0.08
    Act Density 0.000%

    No Known Activations