INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    enh
    -0.08
     Bài
    -0.07
    erra
    -0.07
    -0.07
    做的
    -0.07
    ammo
    -0.07
     Diana
    -0.07
    .Resources
    -0.07
    -0.06
    ADR
    -0.06
    POSITIVE LOGITS
    =l
    0.08
     גיל
    0.08
    /aws
    0.07
    кой
    0.07
    فض
    0.07
    Prog
    0.07
     zdję
    0.07
    sgi
    0.07
     stripe
    0.07
    _object
    0.06
    Act Density 0.002%

    No Known Activations