INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    óla
    -0.10
    isval
    -0.09
    jonal
    -0.09
    jali
    -0.09
    ának
    -0.08
    iole
    -0.08
    ak
    -0.08
    াজিক
    -0.08
    jal
    -0.08
    jar
    -0.08
    POSITIVE LOGITS
    рение
    0.25
    рения
    0.23
    р
    0.16
    ря
    0.14
    рен
    0.12
    ření
    0.12
    řit
    0.12
    рим
    0.12
    орож
    0.11
    igungen
    0.11
    Act Density 0.001%

    No Known Activations