INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Есть
    0.47
     Тех
    0.44
     Эти
    0.43
     Ни
    0.41
     Произ
    0.40
     Этот
    0.40
     Архів
    0.39
     Это
    0.39
     При
    0.39
    При
    0.38
    POSITIVE LOGITS
     in
    0.43
    ,
    0.39
     at
    0.37
     so
    0.37
     (
    0.35
     or
    0.35
     a
    0.35
     à
    0.34
     on
    0.33
     sense
    0.33
    Act Density 0.079%

    No Known Activations