INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .Offset
    -0.07
     Thema
    -0.07
    作了
    -0.07
    小事
    -0.07
     runoff
    -0.07
    etCode
    -0.06
     Gospel
    -0.06
     underground
    -0.06
    -0.06
     foc
    -0.06
    POSITIVE LOGITS
     algunas
    0.07
     algunos
    0.07
    ulação
    0.07
    不喜欢
    0.06
    _block
    0.06
     cup
    0.06
    אוהב
    0.06
     regulation
    0.06
    0.06
    图片
    0.06
    Act Density 0.001%

    No Known Activations