INDEX
    Explanations

    expressing gratitude/farewell

    New Auto-Interp
    Negative Logits
    (an
    -0.08
     lle
    -0.06
    [MAX
    -0.06
     SHR
    -0.06
    -0.06
    -0.06
     ACM
    -0.06
    _OS
    -0.06
     Eh
    -0.06
     obě
    -0.06
    POSITIVE LOGITS
     beim
    0.07
    =http
    0.07
    benhavn
    0.07
    gement
    0.07
     красив
    0.06
     narrative
    0.06
    speaker
    0.06
     polarity
    0.06
     nya
    0.06
     FileName
    0.06
    Act Density 0.051%

    No Known Activations