INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sage
    -0.08
     hr
    -0.07
     heroine
    -0.07
    azi
    -0.07
     غذایی
    -0.07
     damaging
    -0.07
     tac
    -0.06
    /*.
    -0.06
    Oper
    -0.06
    prs
    -0.06
    POSITIVE LOGITS
     finely
    0.06
    ulfill
    0.06
    wicklung
    0.06
     Ab
    0.06
     अब
    0.06
    interrupt
    0.06
    лет
    0.06
    Ab
    0.06
    _where
    0.06
    進行
    0.06
    Act Density 0.144%

    No Known Activations