INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bene
    -0.07
     Fence
    -0.07
     bước
    -0.07
     Simpl
    -0.06
    λικά
    -0.06
     Anch
    -0.06
     karena
    -0.06
     Punk
    -0.06
     topics
    -0.06
    方面
    -0.06
    POSITIVE LOGITS
     say
    0.11
     Say
    0.10
    Say
    0.09
    say
    0.09
    監督
    0.07
     LET
    0.07
     SAY
    0.07
     Pay
    0.06
    lr
    0.06
     خرید
    0.06
    Act Density 0.007%

    No Known Activations