INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ויותר
    -0.07
    نسب
    -0.07
     Brush
    -0.07
     CLAIM
    -0.06
     распростран
    -0.06
    强调
    -0.06
     montage
    -0.06
    感染者
    -0.06
    -0.06
     للغاية
    -0.06
    POSITIVE LOGITS
    (cancel
    0.08
    看了看
    0.07
    _Word
    0.07
    tract
    0.07
     discontent
    0.07
    rsa
    0.07
    笑笑
    0.07
    sel
    0.07
    ò
    0.07
    ıs
    0.07
    Act Density 0.026%

    No Known Activations