INDEX
    Explanations

    hook and hooked context

    New Auto-Interp
    Negative Logits
     gehörte
    0.45
    0.43
     ಎಂಬ
    0.42
    Qg
    0.39
    0.38
    Karen
    0.38
     információ
    0.38
     siguió
    0.37
    ಧಾನ
    0.37
    Apart
    0.36
    POSITIVE LOGITS
     hooks
    1.00
     hook
    0.95
     Hook
    0.93
    Hook
    0.89
     hooking
    0.88
     Hooks
    0.87
    hook
    0.83
    0.82
     hooked
    0.81
    HOOK
    0.80
    Act Density 0.007%

    No Known Activations