INDEX
    Explanations

    identifiers or abbreviations

    New Auto-Interp
    Negative Logits
    addafi
    -0.07
    iffany
    -0.07
    .segment
    -0.07
     Rach
    -0.07
     z
    -0.06
     naz
    -0.06
    iker
    -0.06
    .z
    -0.06
    ænd
    -0.06
     spolupráci
    -0.06
    POSITIVE LOGITS
     기본
    0.06
    :"
    0.06
     يو
    0.06
    0.06
    /dev
    0.06
     Тим
    0.06
     Erotic
    0.06
    0.06
     قهر
    0.06
    0.06
    Act Density 0.015%

    No Known Activations