INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    すぐに
    -0.07
    _callbacks
    -0.07
    isque
    -0.07
     désormais
    -0.06
     Bulld
    -0.06
     aDecoder
    -0.06
    golden
    -0.06
     découvrir
    -0.06
    -0.06
    POSITIVE LOGITS
    [param
    0.07
     santa
    0.07
     PAT
    0.07
     medida
    0.07
    较为
    0.07
    _LOCAL
    0.06
    订阅
    0.06
    カテ
    0.06
    Targets
    0.06
    0.06
    Act Density 0.007%

    No Known Activations