INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    familia
    -0.07
    -0.07
    ussia
    -0.07
    obre
    -0.07
    час
    -0.06
    小时
    -0.06
     PS
    -0.06
    -0.06
    ичес
    -0.06
    كر
    -0.06
    POSITIVE LOGITS
    _interrupt
    0.07
    (filtered
    0.06
     Mig
    0.06
    0.06
     onlara
    0.06
     genocide
    0.05
     intros
    0.05
    Germany
    0.05
    بواسطة
    0.05
    ΑΚ
    0.05
    Act Density 0.001%

    No Known Activations