INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Baldwin
    -0.09
    spor
    -0.08
    -0.08
     Linda
    -0.08
    bine
    -0.08
     Tac
    -0.07
     Litt
    -0.07
     سنت
    -0.07
     sejarah
    -0.07
    وري
    -0.07
    POSITIVE LOGITS
    DG
    0.09
    休日
    0.08
    0.08
    coal
    0.08
    lea
    0.07
     doubts
    0.07
     счет
    0.07
    imir
    0.07
    ус
    0.07
    0.07
    Act Density 0.016%

    No Known Activations