INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     vocab
    -0.09
     groceries
    -0.09
     clips
    -0.08
    еред
    -0.08
     Aim
    -0.08
     закреп
    -0.08
     pack
    -0.08
     vocabulary
    -0.08
     aiming
    -0.08
     حفظ
    -0.08
    POSITIVE LOGITS
    -hidden
    0.09
    隐藏
    0.09
     hidden
    0.08
    0.08
    hidden
    0.08
     awak
    0.08
     invisible
    0.08
    מת
    0.08
     awakened
    0.08
    Waiting
    0.08
    Act Density 0.001%

    No Known Activations