INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    רגיש
    -0.07
    -0.07
    theses
    -0.07
    -0.07
     Burlington
    -0.06
    -0.06
    猴子
    -0.06
    看来
    -0.06
    今后
    -0.06
     북한
    -0.06
    POSITIVE LOGITS
    wives
    0.08
    $filter
    0.07
    Playable
    0.07
    (avg
    0.07
    step
    0.07
    -ie
    0.06
     Increase
    0.06
     cheaper
    0.06
    увели
    0.06
    /gen
    0.06
    Act Density 0.015%

    No Known Activations