INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     objectives
    -0.08
    Objectives
    -0.08
    _TARGET
    -0.08
     Objectives
    -0.08
     entrusted
    -0.07
     approached
    -0.07
    itek
    -0.07
     initialization
    -0.07
     frontage
    -0.07
     prognosis
    -0.07
    POSITIVE LOGITS
     Emoji
    0.12
     emot
    0.12
    Emoji
    0.11
     emoji
    0.11
    emoji
    0.11
    动画
    0.11
     emojis
    0.11
    動畫
    0.10
     эмо
    0.10
     émotion
    0.10
    Act Density 0.008%

    No Known Activations