INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cando
    -0.08
    xo
    -0.07
    cz
    -0.07
    -spacing
    -0.07
     noble
    -0.07
     많이
    -0.07
    roup
    -0.07
    bone
    -0.07
     lect
    -0.07
     esperamos
    -0.07
    POSITIVE LOGITS
     трет
    0.08
     vibes
    0.08
    0.07
     dhin
    0.07
     unused
    0.07
     Η
    0.07
    ตัน
    0.07
    imiter
    0.07
     entgegen
    0.07
    0.07
    Act Density 0.001%

    No Known Activations