INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     INIT
    -0.08
     preliminary
    -0.08
     honeymoon
    -0.07
     título
    -0.07
     unlucky
    -0.07
     priest
    -0.07
     Patriots
    -0.07
    秘密
    -0.07
    oord
    -0.07
     servicios
    -0.07
    POSITIVE LOGITS
    .Can
    0.08
    gráf
    0.07
    can
    0.07
    قوان
    0.07
    ハン
    0.07
    ốc
    0.07
    vinfos
    0.07
     can
    0.07
     tàn
    0.07
     down
    0.07
    Act Density 0.068%

    No Known Activations