INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     teg
    -0.08
    -0.07
     cannabis
    -0.07
    -0.06
    -0.06
     slam
    -0.06
    -0.06
     tre
    -0.06
    emb
    -0.06
    -0.06
    POSITIVE LOGITS
     seit
    0.07
    君子
    0.07
    pch
    0.07
    .document
    0.07
    .lift
    0.07
    0.07
    促使
    0.07
    הליכ
    0.06
    给人
    0.06
     NONE
    0.06
    Act Density 0.001%

    No Known Activations