INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     to
    0.36
     אי
    0.34
     the
    0.33
     de
    0.32
     he
    0.31
     ihe
    0.30
    u
    0.30
     copies
    0.30
     argon
    0.30
     they
    0.30
    POSITIVE LOGITS
    8
    0.39
    7
    0.37
    的角色
    0.34
    的可能性
    0.30
    4
    0.30
     хватает
    0.30
    5
    0.29
    9
    0.28
    的有
    0.28
    бычно
    0.27
    Act Density 0.576%

    No Known Activations