INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     pokemon
    -0.07
    _cmds
    -0.07
     policym
    -0.07
     polluted
    -0.07
     Aura
    -0.06
     restau
    -0.06
    _obs
    -0.06
     Fleming
    -0.06
     vessels
    -0.06
     hospitalized
    -0.06
    POSITIVE LOGITS
     relate
    0.07
    0.07
     realizes
    0.07
    olved
    0.06
    ійської
    0.06
    0.06
    GEST
    0.06
     étaient
    0.06
    ΕΚ
    0.06
    αρ
    0.06
    Act Density 0.004%

    No Known Activations