INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     himself
    1.02
     그는
    0.92
    彼は
    0.89
     نفسه
    0.85
     അദ്ദേഹം
    0.81
     jego
    0.78
    他的
    0.77
     his
    0.76
     เขา
    0.75
    his
    0.75
    POSITIVE LOGITS
     herself
    2.27
    她的
    1.33
     نفسها
    1.31
    彼女
    1.30
     그녀
    1.27
     her
    1.26
     miała
    1.26
     acompañada
    1.25
    1.23
     she
    1.22
    Act Density 0.021%

    No Known Activations