INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Opp
    -0.07
    科普
    -0.07
    ひとつ
    -0.07
     Tob
    -0.07
    nych
    -0.07
     Sailor
    -0.07
    工作经验
    -0.07
    -0.06
    Opp
    -0.06
    .sensor
    -0.06
    POSITIVE LOGITS
     desert
    0.08
    _profit
    0.07
    .fit
    0.07
     finals
    0.07
    amic
    0.07
     (%
    0.07
     termination
    0.07
     harm
    0.07
     rd
    0.06
     öldür
    0.06
    Act Density 0.044%

    No Known Activations