INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ')↵↵↵
    -0.08
    ="">
    ↵
    -0.08
    wealth
    -0.07
     per
    -0.07
     {});↵↵
    -0.07
    知识产权
    -0.07
    oward
    -0.07
    ("");
    ↵
    -0.07
    })↵↵↵
    -0.07
     }])↵
    -0.06
    POSITIVE LOGITS
    -contrib
    0.07
     אוהבת
    0.07
    (atom
    0.07
     Illustr
    0.07
     decor
    0.07
     smo
    0.07
     lions
    0.07
    vars
    0.07
    obo
    0.07
     często
    0.07
    Act Density 0.011%

    No Known Activations