INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    }\
    -0.07
    .Board
    -0.07
     Rise
    -0.07
     bath
    -0.07
     IW
    -0.06
    						 
    -0.06
    (Menu
    -0.06
     beat
    -0.06
    。在
    -0.06
     feast
    -0.06
    POSITIVE LOGITS
    niční
    0.07
     complying
    0.07
     verte
    0.06
    очка
    0.06
    ảy
    0.06
    jas
    0.06
     chtě
    0.06
    ляються
    0.06
    mf
    0.06
    leftright
    0.06
    Act Density 0.036%

    No Known Activations