INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    @d
    -0.07
     pur
    -0.07
    @
    -0.06
    推荐
    -0.06
     \<
    -0.06
     childbirth
    -0.06
     lucrative
    -0.06
    ,ch
    -0.06
     dans
    -0.06
    -0.06
    POSITIVE LOGITS
     robot
    0.06
    Kent
    0.06
    зації
    0.06
    UITableView
    0.06
    озд
    0.06
     Machinery
    0.06
     Проф
    0.06
     tweak
    0.06
    0.06
    amoto
    0.06
    Act Density 0.025%

    No Known Activations