INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.31
    '
    0.29
    ר
    0.26
    nson
    0.25
    רות
    0.25
    that
    0.23
     Дмитри
    0.23
    نون
    0.23
    urgeon
    0.22
    并没有
    0.22
    POSITIVE LOGITS
     and
    0.33
     I
    0.31
    ید
    0.31
    ूली
    0.28
     or
    0.27
    ہ
    0.27
     in
    0.27
     caring
    0.27
    گی
    0.26
    ли
    0.26
    Act Density 0.000%

    No Known Activations