INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Glück
    -0.07
    سعادة
    -0.07
     BFS
    -0.07
     madre
    -0.07
    🇩
    -0.07
    打拼
    -0.07
    经典的
    -0.06
     לעולם
    -0.06
     socialism
    -0.06
    🌸
    -0.06
    POSITIVE LOGITS
    phants
    0.07
    止损
    0.07
    fo
    0.07
    OUND
    0.07
    ->___
    0.06
    inds
    0.06
    ire
    0.06
    百分之
    0.06
     Installer
    0.06
     mistakes
    0.06
    Act Density 0.002%

    No Known Activations