INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Troubles
    -0.08
     بدل
    -0.08
    Plain
    -0.08
     Handy
    -0.08
     condom
    -0.08
     ول
    -0.07
     можем
    -0.07
     رد
    -0.07
     وب
    -0.07
    -0.07
    POSITIVE LOGITS
     gong
    0.08
     Stuttgart
    0.08
    0.08
    大战
    0.07
     dynasty
    0.07
    0.07
     thirst
    0.07
    sleep
    0.07
    kn
    0.07
     pilgrimage
    0.07
    Act Density 0.002%

    No Known Activations