INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Ini
    -0.08
    Prog
    -0.08
     Prog
    -0.08
    ini
    -0.08
     masculine
    -0.08
    (ic
    -0.08
     جهانی
    -0.08
    Bins
    -0.08
     besch
    -0.08
    자동
    -0.07
    POSITIVE LOGITS
     }}↵
    0.08
     dato
    0.08
    haber
    0.08
    0.08
    212
    0.08
     req
    0.07
    ott
    0.07
    kat
    0.07
    午夜
    0.07
    252
    0.07
    Act Density 0.001%

    No Known Activations