INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    igrated
    -0.07
    OC
    -0.07
     gehen
    -0.07
     ва
    -0.07
    ัฒนา
    -0.07
     وع
    -0.06
    Что
    -0.06
    osaurs
    -0.06
     Bye
    -0.06
    三三
    -0.06
    POSITIVE LOGITS
    #
    0.08
     man
    0.07
     #
    0.06
     Phil
    0.06
    Pl
    0.06
    -ob
    0.06
    #!
    0.06
    profil
    0.06
    Poly
    0.06
    imple
    0.06
    Act Density 0.005%

    No Known Activations