INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    .setForeground
    -0.07
     evolve
    -0.07
     محمود
    -0.07
    -0.06
    przed
    -0.06
    _mE
    -0.06
    -0.06
    -0.06
     conver
    -0.06
    POSITIVE LOGITS
    -mail
    0.08
    人の
    0.08
    来て
    0.07
    BODY
    0.07
    .agent
    0.07
     bystand
    0.07
     urinary
    0.06
    UDO
    0.06
     FORCE
    0.06
     remorse
    0.06
    Act Density 0.002%

    No Known Activations