INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ublik
    -0.07
    /down
    -0.07
     workstation
    -0.07
    	idx
    -0.07
     ado
    -0.07
    зд
    -0.07
    latin
    -0.06
    (...)↵
    -0.06
     nấu
    -0.06
    .rooms
    -0.06
    POSITIVE LOGITS
     Bureau
    0.06
     Gemini
    0.06
    гов
    0.06
     Femme
    0.06
     ende
    0.06
    0.06
     Agr
    0.06
     Q
    0.06
     Cinder
    0.06
     Y
    0.06
    Act Density 0.001%

    No Known Activations