INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    INIT
    -0.08
    {sub
    -0.08
    vatore
    -0.08
    tin
    -0.07
    hoof
    -0.07
     corr
    -0.07
     Bac
    -0.07
     Ons
    -0.07
     Georg
    -0.07
     taboo
    -0.07
    POSITIVE LOGITS
     آلات
    0.07
    0.07
     ach
    0.07
    SUM
    0.07
     каж
    0.07
    0.07
     phased
    0.07
    0.07
     MB
    0.07
    -assisted
    0.07
    Act Density 0.018%

    No Known Activations