INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     eb
    -0.08
    nach
    -0.08
    604
    -0.07
    231
    -0.07
    babel
    -0.07
    -0.07
    -0.07
     зат
    -0.07
    chmod
    -0.07
    -0.07
    POSITIVE LOGITS
    🏻
    0.09
    🏼
    0.09
     פעולה
    0.08
     cooked
    0.08
     Wis
    0.08
     rendered
    0.08
    0.07
     wise
    0.07
    ful
    0.07
     Wisdom
    0.07
    Act Density 0.005%

    No Known Activations