INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     slo
    -0.07
     χρή
    -0.07
    getEmail
    -0.06
     würde
    -0.06
    いる
    -0.06
     dated
    -0.06
     journal
    -0.06
     dati
    -0.06
    destroy
    -0.06
     papers
    -0.06
    POSITIVE LOGITS
     Beast
    0.09
    0.09
     beast
    0.07
     VS
    0.07
     NGX
    0.07
     doz
    0.06
    ̧
    0.06
    .tensor
    0.06
     realism
    0.06
    firm
    0.06
    Act Density 0.002%

    No Known Activations