INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     raging
    -0.08
     seguint
    -0.08
    Número
    -0.07
    结束后
    -0.07
    _IE
    -0.07
    wiązan
    -0.07
     Dimit
    -0.07
    .fig
    -0.07
    Prot
    -0.07
     Tina
    -0.07
    POSITIVE LOGITS
    כתב
    0.07
     quietly
    0.07
    فاق
    0.06
     judges
    0.06
     daddy
    0.06
     convey
    0.06
    ҷ
    0.06
    פק
    0.06
    สย
    0.06
    0.06
    Act Density 0.005%

    No Known Activations