INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     proport
    -0.08
    idden
    -0.08
    يوم
    -0.07
    -0.07
    (Parser
    -0.07
     Hogan
    -0.07
    -0.07
     showcases
    -0.07
     equip
    -0.07
    フォー
    -0.07
    POSITIVE LOGITS
    0.08
     hükü
    0.07
    ima
    0.07
    ONO
    0.07
    structure
    0.06
    theta
    0.06
    0.06
     original
    0.06
    0.06
     המקורי
    0.06
    Act Density 0.002%

    No Known Activations