INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ************************************************
    -0.08
    ebabkan
    -0.08
    ività
    -0.08
    .decorators
    -0.08
    achen
    -0.08
    ADB
    -0.08
    increase
    -0.08
    .Fprintf
    -0.08
     ************************************************
    -0.07
    ********************************************************
    -0.07
    POSITIVE LOGITS
     מת
    0.08
     mm
    0.08
     ממ
    0.08
     מור
    0.08
     ops
    0.08
     מה
    0.08
     משהו
    0.07
    0.07
     kk
    0.07
    <ll
    0.07
    Act Density 0.435%

    No Known Activations