INDEX
    Explanations

    above/below

    New Auto-Interp
    Negative Logits
    vk
    -0.07
    client
    -0.07
     decoder
    -0.07
     operations
    -0.07
     indicated
    -0.07
     chức
    -0.07
     Control
    -0.07
     Athletics
    -0.06
     sanctioned
    -0.06
     regional
    -0.06
    POSITIVE LOGITS
    osa
    0.07
     TableView
    0.06
     břez
    0.06
     Marseille
    0.06
     tấm
    0.06
     meilleur
    0.06
    레스
    0.06
     dří
    0.06
    ---------------
    0.06
     jars
    0.06
    Act Density 0.024%

    No Known Activations