INDEX
    Explanations

    Code/markdown descriptions

    New Auto-Interp
    Negative Logits
     lohnt
    -0.08
    (inter
    -0.08
     Eureka
    -0.08
     dyd
    -0.08
     :↵
    -0.07
     représentants
    -0.07
     Studium
    -0.07
    门户
    -0.07
     ورکړ
    -0.07
    יאת
    -0.07
    POSITIVE LOGITS
     όσο
    0.08
     Pressure
    0.08
     नो
    0.08
     pressure
    0.07
     COMMAND
    0.07
     escalate
    0.07
    oque
    0.07
    write
    0.07
    omit
    0.07
    aggio
    0.07
    Act Density 0.011%

    No Known Activations