INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    s
    0.59
    d
    0.56
    д
    0.51
    س
    0.49
    in
    0.47
    ש
    0.47
     crackdown
    0.46
     ARE
    0.46
    ی
    0.46
    dagen
    0.45
    POSITIVE LOGITS
     obstáculos
    0.51
    ified
    0.49
     lanzar
    0.46
    0.44
    ivo
    0.43
    ästä
    0.43
    ある
    0.43
    ного
    0.43
    jší
    0.43
     цели
    0.42
    Act Density 0.017%

    No Known Activations