INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    失控
    -0.07
     ermög
    -0.07
    ële
    -0.07
     groom
    -0.07
    Granted
    -0.07
    /test
    -0.07
    -0.06
     właściciel
    -0.06
     proprietor
    -0.06
    POSITIVE LOGITS
     attracting
    0.07
     seals
    0.07
    icates
    0.07
    _faces
    0.07
     machen
    0.07
     могут
    0.07
     presses
    0.07
     Dove
    0.07
    меча
    0.07
    gency
    0.07
    Act Density 0.001%

    No Known Activations