INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     még
    -0.08
     semin
    -0.08
     behoud
    -0.08
     مج
    -0.07
    [next
    -0.07
    umā
    -0.07
    <Response
    -0.07
     mung
    -0.07
     mucus
    -0.07
    .eval
    -0.07
    POSITIVE LOGITS
     keres
    0.07
    sea
    0.07
     які
    0.07
     financiers
    0.07
    кими
    0.07
     wese
    0.07
    Treas
    0.07
    wap
    0.07
     inde
    0.07
    onds
    0.07
    Act Density 0.003%

    No Known Activations