INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     EB
    0.30
     athe
    0.29
     nommé
    0.29
     GE
    0.28
     значение
    0.28
    ссии
    0.28
     cual
    0.28
     situe
    0.27
    nante
    0.27
     permettant
    0.27
    POSITIVE LOGITS
    Active
    0.34
    D
    0.30
    S
    0.29
    We
    0.27
    Sh
    0.27
    0.27
    Ö
    0.27
    G
    0.26
    ار
    0.26
    A
    0.26
    Act Density 0.006%

    No Known Activations