INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Cec
    0.79
    ריק
    0.77
    from
    0.77
    يلي
    0.77
    дни
    0.77
    I
    0.77
    PEN
    0.76
    מר
    0.75
    ייל
    0.75
    0.75
    POSITIVE LOGITS
     восприя
    0.82
     узна
    0.80
     замет
    0.74
    ский
    0.71
     conspicuous
    0.71
     касается
    0.71
     ссы
    0.70
    шает
    0.70
     зрения
    0.68
    ԁ
    0.68
    Act Density 0.001%

    No Known Activations