INDEX
    Explanations

    code syntax

    New Auto-Interp
    Negative Logits
     Zo
    -0.07
    bio
    -0.07
    orado
    -0.06
     Rubio
    -0.06
     hobbies
    -0.06
     Wo
    -0.06
     Kathy
    -0.06
     iso
    -0.06
     Crop
    -0.06
     Tyto
    -0.06
    POSITIVE LOGITS
    ;
    0.12
    );
    0.09
     ;
    0.09
    ;↵
    0.09
    ;;;;;;;;;;;;;;;;
    0.08
    ];
    0.08
    ;/
    0.08
    ;-
    0.08
    ”;
    0.08
     (;
    0.08
    Act Density 0.351%

    No Known Activations