INDEX
    Explanations

    specific instances of concepts

    New Auto-Interp
    Negative Logits
     물론
    1.03
     appalling
    1.02
     Ironically
    0.95
     even
    0.93
     zelfs
    0.89
    更是
    0.89
     오히려
    0.88
     homophobic
    0.87
     Admittedly
    0.87
     übrigens
    0.87
    POSITIVE LOGITS
    某个
    1.00
    某一
    0.95
    または
    0.95
    Usually
    0.90
    किसी
    0.89
     suatu
    0.88
    通常
    0.87
     или
    0.83
     déterminé
    0.83
     одного
    0.80
    Act Density 0.645%

    No Known Activations