INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Dev
    -0.09
    Dev
    -0.08
    .Dev
    -0.07
     Log
    -0.07
     dev
    -0.07
    _dev
    -0.07
    dev
    -0.07
     Db
    -0.07
    Requirements
    -0.07
    Destroy
    -0.07
    POSITIVE LOGITS
     أصل
    0.08
     numériques
    0.08
    ुँ
    0.08
     Heavenly
    0.08
     παρουσιά
    0.08
    0.08
     terdiri
    0.08
     verhouding
    0.08
    텐츠
    0.08
     pecado
    0.08
    Act Density 0.010%

    No Known Activations