INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     lwa
    -0.08
     Ua
    -0.08
    _sw
    -0.07
     Tak
    -0.07
     Schw
    -0.07
     Amma
    -0.07
     episod
    -0.07
    _SW
    -0.07
     Зав
    -0.07
    POSITIVE LOGITS
    0.10
    corn
    0.09
    glass
    0.09
    0.09
    knife
    0.08
    gren
    0.08
     knife
    0.08
     kern
    0.08
     उठ
    0.07
     पु
    0.07
    Act Density 0.006%

    No Known Activations