INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    hab
    -0.07
     ఆస
    -0.07
    ничес
    -0.07
     зі
    -0.07
    ird
    -0.07
    omos
    -0.07
    ervice
    -0.07
    Veget
    -0.07
    oidal
    -0.07
    ą
    -0.07
    POSITIVE LOGITS
     hinweg
    0.09
     heen
    0.09
     phía
    0.09
     Leb
    0.09
     entier
    0.08
     нее
    0.08
     неё
    0.08
     gesproken
    0.08
     marinade
    0.08
     ressort
    0.08
    Act Density 0.014%

    No Known Activations