INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -production
    -0.07
    -0.06
    -country
    -0.06
    -player
    -0.06
     управления
    -0.06
     compte
    -0.06
    Eng
    -0.06
    mh
    -0.06
    -0.06
     joking
    -0.06
    POSITIVE LOGITS
    (infile
    0.07
    _SAMPLES
    0.07
    0.07
    امت
    0.07
     المس
    0.06
    .Check
    0.06
     ('\
    0.06
    _normalize
    0.06
    ・━・━・━・━
    0.06
     دار
    0.06
    Act Density 0.020%

    No Known Activations