INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     they
    -0.07
     ethnicity
    -0.07
     them
    -0.07
     relation
    -0.06
     Je
    -0.06
     They
    -0.06
    -0.06
     Attorney
    -0.06
    -0.06
    उन
    -0.06
    POSITIVE LOGITS
     das
    0.26
    Das
    0.13
     Das
    0.12
     dat
    0.09
    das
    0.08
     dieses
    0.07
     таке
    0.07
     dass
    0.07
    ственное
    0.07
    vas
    0.06
    Act Density 0.006%

    No Known Activations