INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .username
    -0.10
    .pretty
    -0.08
     username
    -0.07
    _username
    -0.07
     writes
    -0.07
     prevents
    -0.07
    Generated
    -0.07
    用户名
    -0.07
     guide
    -0.07
    .reg
    -0.07
    POSITIVE LOGITS
     impetus
    0.08
     disclaim
    0.08
     matemática
    0.08
    מער
    0.08
     crít
    0.08
    ből
    0.07
     LOSS
    0.07
     حلق
    0.07
     מער
    0.07
     vistas
    0.07
    Act Density 0.041%

    No Known Activations