INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     their
    1.05
    their
    0.92
     theirs
    0.88
    他们的
    0.86
    他們的
    0.86
     leurs
    0.80
    他们在
    0.77
     их
    0.77
     THEIR
    0.76
     deres
    0.74
    POSITIVE LOGITS
    }
    0.94
    ()}
    0.78
    }(
    0.70
     feminist
    0.67
    {}
    0.67
    若い
    0.66
    }{
    0.66
    }}
    0.65
    }?
    0.65
     Women
    0.65
    Act Density 0.059%

    No Known Activations