INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    类似的
    0.54
    独立的
    0.52
    新的
    0.49
    稳定的
    0.48
    不同的
    0.47
    复杂的
    0.47
    漂亮的
    0.46
     작은
    0.46
    正常的
    0.46
     gamle
    0.46
    POSITIVE LOGITS
     eher
    0.45
     gut
    0.44
     hilfreich
    0.41
     schwierig
    0.40
     durchaus
    0.39
     интересно
    0.39
     schlecht
    0.38
     anders
    0.38
     ambigu
    0.38
     interessant
    0.38
    Act Density 0.017%

    No Known Activations