INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _minus
    -0.07
     addict
    -0.07
    -0.06
     outro
    -0.06
    _no
    -0.06
    Discuss
    -0.06
     інші
    -0.06
    deadline
    -0.06
    caf
    -0.06
     Fold
    -0.06
    POSITIVE LOGITS
     Fired
    0.06
    leting
    0.06
     compét
    0.06
    ρηση
    0.06
     dữ
    0.06
     Мар
    0.06
     Měst
    0.06
    ****************************************************************
    0.06
    0.06
    WithType
    0.06
    Act Density 0.002%

    No Known Activations