INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    passed
    -0.07
    -0.06
    -0.06
    ASSWORD
    -0.06
    调动
    -0.06
    appropriate
    -0.06
    mod
    -0.06
    قواعد
    -0.06
    alternative
    -0.06
    -0.06
    POSITIVE LOGITS
     Gaw
    0.07
     caregivers
    0.07
     governor
    0.07
    _CUR
    0.07
    🇭
    0.07
    _REDIRECT
    0.07
    ////////////////////////////////////////////////////////////////////////
    0.07
    朝廷
    0.07
     рассказ
    0.07
     Thus
    0.06
    Act Density 0.020%

    No Known Activations