INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sensible
    -0.07
    .Act
    -0.06
    -0.06
     англ
    -0.06
    _listener
    -0.06
    -0.06
    	bar
    -0.06
     Fritz
    -0.06
    weather
    -0.06
    _tuple
    -0.06
    POSITIVE LOGITS
     so
    0.10
    sk
    0.07
    -sk
    0.07
    0.06
    .SO
    0.06
     hugs
    0.06
    xi
    0.06
    cház
    0.06
    REDENTIAL
    0.06
    .photo
    0.06
    Act Density 0.020%

    No Known Activations