INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    DIRECT
    -0.08
     Reject
    -0.08
    kal
    -0.07
    _direct
    -0.07
    FAIL
    -0.07
     Direct
    -0.07
    .EN
    -0.07
    direct
    -0.07
     DIRECT
    -0.07
    POSITIVE LOGITS
    习近平
    0.10
     exchanged
    0.09
     intercambio
    0.08
    タイプ
    0.08
    Interpolator
    0.08
     מסוג
    0.08
     unter
    0.08
    xu
    0.08
    (span
    0.08
    ありが
    0.08
    Act Density 0.002%

    No Known Activations