INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    13
    -0.06
     dán
    -0.06
    Mir
    -0.06
    _VERTEX
    -0.06
    endir
    -0.06
    تباط
    -0.06
     zakáz
    -0.06
     staat
    -0.06
     odmít
    -0.06
     Sh
    -0.05
    POSITIVE LOGITS
    ‘s
    0.07
    've
    0.07
    pkg
    0.07
    veal
    0.07
    0.07
    alom
    0.06
     сход
    0.06
    noxious
    0.06
    al
    0.06
    меж
    0.06
    Act Density 0.010%

    No Known Activations