INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     workable
    -0.07
    linkplain
    -0.07
     incid
    -0.07
     denunci
    -0.07
     sandstone
    -0.07
     blatant
    -0.07
    031
    -0.07
     розвитку
    -0.07
     vorbe
    -0.07
     versteht
    -0.07
    POSITIVE LOGITS
    ialla
    0.09
     nord
    0.08
     puol
    0.08
     كيف
    0.07
     pina
    0.07
    aveled
    0.07
    Mon
    0.07
    ikoa
    0.07
    iaire
    0.07
    0.07
    Act Density 0.001%

    No Known Activations