INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     استراتيج
    -0.06
     müd
    -0.06
     MATCH
    -0.06
    _np
    -0.06
    -0.06
     PropelException
    -0.06
     fantasies
    -0.06
    嫌弃
    -0.06
    李白
    -0.06
     Eins
    -0.06
    POSITIVE LOGITS
    ogue
    0.09
    curve
    0.07
    地區
    0.07
     apost
    0.07
    based
    0.07
    _special
    0.07
    pectrum
    0.07
    _resolve
    0.07
    _passed
    0.07
    hand
    0.07
    Act Density 0.012%

    No Known Activations