INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     امیدوار
    -0.08
    handlung
    -0.08
    94
    -0.07
     leider
    -0.07
    Hans
    -0.07
     escort
    -0.07
    موضوع
    -0.07
     statistically
    -0.07
    HEEL
    -0.07
     spaz
    -0.07
    POSITIVE LOGITS
    0.10
     값을
    0.09
     '='
    0.09
     valu
    0.08
     "="
    0.08
     assignment
    0.08
     RHS
    0.08
    0.08
    .assign
    0.08
     дан
    0.08
    Act Density 0.008%

    No Known Activations