INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     управління
    -0.07
    .rem
    -0.07
    zel
    -0.07
    _pp
    -0.07
    radu
    -0.07
    èn
    -0.07
     웹사이트
    -0.06
    ADDE
    -0.06
    ذیر
    -0.06
    -0.06
    POSITIVE LOGITS
    meldung
    0.06
    ظر
    0.06
    ながら
    0.06
     information
    0.06
    б
    0.06
     Dave
    0.06
     Evidence
    0.06
     inadvert
    0.06
     Daughter
    0.06
     merit
    0.05
    Act Density 0.009%

    No Known Activations