INDEX
    Explanations

    transcription

    New Auto-Interp
    Negative Logits
     ctx
    -0.07
    facts
    -0.07
    にお
    -0.07
     let
    -0.07
    -0.07
    ():
    ↵
    -0.06
     escape
    -0.06
     satire
    -0.06
    pawn
    -0.06
    руз
    -0.06
    POSITIVE LOGITS
     Jeg
    0.07
     جدید
    0.07
    ither
    0.06
    ентом
    0.06
     abdom
    0.06
    .firstChild
    0.06
     Ging
    0.06
     Funk
    0.06
     Bon
    0.06
    SON
    0.06
    Act Density 0.004%

    No Known Activations