INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	before
    -0.08
     fals
    -0.08
    ))*(
    -0.07
    erin
    -0.07
    	dd
    -0.07
    (py
    -0.07
    (block
    -0.07
    	al
    -0.06
     typ
    -0.06
    _slope
    -0.06
    POSITIVE LOGITS
     хол
    0.07
     wipes
    0.07
     немає
    0.06
     Αθή
    0.06
    Роз
    0.06
     ΠΑΝ
    0.06
    inflate
    0.06
     Bombay
    0.06
     Ка
    0.06
    Ошибка
    0.06
    Act Density 0.003%

    No Known Activations