INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .On
    -0.08
    🎇
    -0.07
    feat
    -0.07
     시행
    -0.07
    舌尖
    -0.07
     regimen
    -0.07
     ofrece
    -0.07
    ViewState
    -0.07
    -0.06
     affection
    -0.06
    POSITIVE LOGITS
    OLUMN
    0.07
    .bold
    0.07
    scientific
    0.07
    others
    0.07
    CELER
    0.06
    ****************************
    0.06
     الموضوع
    0.06
    ]={↵
    0.06
     karşılaş
    0.06
     ::=
    0.06
    Act Density 0.013%

    No Known Activations