INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bark
    -0.07
    box
    -0.07
    xt
    -0.07
    aban
    -0.07
    _d
    -0.07
    .um
    -0.07
     voice
    -0.07
    .in
    -0.07
    Um
    -0.06
    ale
    -0.06
    POSITIVE LOGITS
    Marca
    0.07
    建立
    0.06
    0.06
    YOUR
    0.06
     porówna
    0.06
    0.06
     fu
    0.06
    addError
    0.06
    财产
    0.06
    .Guna
    0.06
    Act Density 0.167%

    No Known Activations