INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Parm
    -0.09
     turkey
    -0.08
     perí
    -0.07
     Grass
    -0.07
     tul
    -0.07
    Ges
    -0.07
     вступ
    -0.07
     Cla
    -0.07
     Herb
    -0.07
     Mick
    -0.07
    POSITIVE LOGITS
     adelante
    0.08
    Tilt
    0.08
     depr
    0.07
     tilted
    0.07
     ways
    0.07
     Sonic
    0.07
    セット
    0.07
     ورو
    0.07
     oft
    0.07
    Chooser
    0.07
    Act Density 0.005%

    No Known Activations