INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ien
    -0.07
    -media
    -0.07
    .codehaus
    -0.07
     jamais
    -0.07
     Türkçe
    -0.07
    Fields
    -0.06
    -0.06
     New
    -0.06
     reassure
    -0.06
    Dan
    -0.06
    POSITIVE LOGITS
    0.07
    👆
    0.07
    erequisite
    0.07
    עלי
    0.07
    expo
    0.07
    0.07
    }}{{
    0.06
    客气
    0.06
     obligatory
    0.06
    -serif
    0.06
    Act Density 0.018%

    No Known Activations