INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     CMD
    -0.08
     régime
    -0.07
    (action
    -0.07
    scss
    -0.07
    דר
    -0.07
    _HARD
    -0.06
    abinet
    -0.06
     Strikes
    -0.06
    üst
    -0.06
    基督徒
    -0.06
    POSITIVE LOGITS
    Ash
    0.07
    TITLE
    0.07
    0.07
     Scarlett
    0.07
    _san
    0.07
     المل
    0.07
     signs
    0.07
    0.06
    *[
    0.06
     beurette
    0.06
    Act Density 0.034%

    No Known Activations