INDEX
    Explanations

    explaining AI experience or feelings

    New Auto-Interp
    Negative Logits
    提供了
    0.52
    提供
    0.50
    ましょう
    0.49
     提供
    0.47
    優れた
    0.46
    0.45
    Provide
    0.45
    רי
    0.44
     scavenger
    0.44
    しましょう
    0.44
    POSITIVE LOGITS
     honestly
    0.75
     myself
    0.70
    我现在
    0.70
    Honestly
    0.69
     ഞാൻ
    0.64
     ನಾನು
    0.63
     pribadi
    0.63
     நான்
    0.63
     Honestly
    0.62
     mujhe
    0.61
    Act Density 0.154%

    No Known Activations