INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    662
    -0.07
     allo
    -0.07
    642
    -0.07
    -0.06
     dot
    -0.06
     trained
    -0.06
    oper
    -0.06
     cre
    -0.06
    ogs
    -0.06
    718
    -0.06
    POSITIVE LOGITS
    inha
    0.07
    自身
    0.06
     companion
    0.06
    ///<
    0.06
    θή
    0.06
    maj
    0.06
    ipients
    0.06
    0.06
    todo
    0.06
     می
    0.06
    Act Density 0.002%

    No Known Activations