INDEX
    Explanations

    Personal reflections/blog

    New Auto-Interp
    Negative Logits
     للد
    -0.07
    -0.07
    قی
    -0.07
     فت
    -0.07
     cockpit
    -0.06
     древ
    -0.06
    cala
    -0.06
    ضة
    -0.06
    ihar
    -0.06
    610
    -0.06
    POSITIVE LOGITS
    .Matcher
    0.07
     });↵↵↵↵
    0.07
    wg
    0.07
     ([]
    0.06
    _transition
    0.06
     &&
    ↵
    0.06
     jede
    0.06
    Jason
    0.06
     zh
    0.06
     \<^
    0.06
    Act Density 0.015%

    No Known Activations