INDEX
    Explanations

    hate speech, discrimination

    New Auto-Interp
    Negative Logits
     людини
    0.47
     алыңыз
    0.46
     élevées
    0.45
     тип
    0.45
     réfrig
    0.45
     філь
    0.45
    ાળા
    0.44
     кеңсе
    0.44
     ಬಹಳ
    0.44
     використову
    0.43
    POSITIVE LOGITS
     {
    0.50
     (
    0.48
     Genocide
    0.48
     =
    0.47
    ંદ
    0.47
    0.47
    0.45
     TMC
    0.45
    ций
    0.45
    n
    0.44
    Act Density 0.085%

    No Known Activations