INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    atan
    -0.07
    فارق
    -0.07
     perpet
    -0.07
    .perm
    -0.07
     unofficial
    -0.07
     spur
    -0.07
    生理
    -0.07
    Sell
    -0.07
     alguna
    -0.07
     aficion
    -0.06
    POSITIVE LOGITS
    0.07
    0.07
     Kill
    0.07
    应当
    0.06
     House
    0.06
    HLT
    0.06
    0.06
    0.06
    新年
    0.06
    회의
    0.06
    Act Density 0.014%

    No Known Activations