INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     torment
    -0.07
    -0.07
    ——
    -0.07
     Ind
    -0.07
     пят
    -0.07
     biom
    -0.07
    -0.07
     fools
    -0.07
     Meet
    -0.07
    Ind
    -0.06
    POSITIVE LOGITS
    了一遍
    0.07
    0.07
    0.06
    早就
    0.06
    0.06
     "]";↵
    0.06
    BERT
    0.06
    _seek
    0.06
    овым
    0.06
     flushed
    0.06
    Act Density 0.002%

    No Known Activations