INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Cef
    -0.09
    лой
    -0.08
     لص
    -0.08
     cef
    -0.08
     wine
    -0.08
     znač
    -0.08
     zvino
    -0.08
     Barca
    -0.07
     Constitu
    -0.07
    -0.07
    POSITIVE LOGITS
    expr
    0.08
    fz
    0.07
    cap
    0.07
    ,:
    0.07
     directe
    0.07
    ri
    0.07
    kopf
    0.07
     transmitted
    0.07
     ہر
    0.07
    print
    0.07
    Act Density 0.004%

    No Known Activations