INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    IRECTION
    -0.07
     FOREIGN
    -0.07
     główna
    -0.06
    (extra
    -0.06
     Regular
    -0.06
     Kang
    -0.06
     Structural
    -0.06
     המחיר
    -0.06
     leather
    -0.06
    kiego
    -0.06
    POSITIVE LOGITS
    JPEG
    0.07
    💧
    0.07
    ai
    0.07
     WH
    0.07
     esper
    0.07
    栽培
    0.07
     nomin
    0.06
    נות
    0.06
     seus
    0.06
    Wizard
    0.06
    Act Density 0.001%

    No Known Activations