INDEX
    Explanations

    Sentence beginnings

    New Auto-Interp
    Negative Logits
     duh
    -0.09
    -0.08
     এছ
    -0.08
     précédente
    -0.08
     Mostly
    -0.08
    做好
    -0.08
     Nicholson
    -0.07
     tulee
    -0.07
     MATERIAL
    -0.07
     তুমি
    -0.07
    POSITIVE LOGITS
     తమ
    0.13
     ತಮ್ಮ
    0.11
     хотят
    0.11
     считают
    0.10
     heutzutage
    0.10
     получают
    0.10
     themselves
    0.09
    ுள்ளனர்
    0.09
    甚至
    0.09
     իրենց
    0.09
    Act Density 0.385%

    No Known Activations