INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ligne
    -0.07
    <th
    -0.07
    événement
    -0.07
    -0.07
    seudo
    -0.07
    (nn
    -0.07
    (send
    -0.06
    irs
    -0.06
    通畅
    -0.06
    udiant
    -0.06
    POSITIVE LOGITS
    0.07
    משכ
    0.07
    FINE
    0.06
    0.06
     favors
    0.06
    .es
    0.06
    пат
    0.06
    0.06
    ATEG
    0.06
    Construct
    0.06
    Act Density 0.002%

    No Known Activations