INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Encore
    -0.08
     umum
    -0.08
     avr
    -0.08
     vender
    -0.07
     açúcar
    -0.07
    -0.07
     teeth
    -0.07
     grooming
    -0.07
     fertile
    -0.07
     MAD
    -0.07
    POSITIVE LOGITS
     aloud
    0.09
    _literal
    0.08
     IB
    0.08
     المنزل
    0.08
     literal
    0.08
    literal
    0.08
    asil
    0.08
     الثقيلة
    0.07
     כב
    0.07
     täglich
    0.07
    Act Density 0.025%

    No Known Activations