INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nid
    -0.08
     اعلان
    -0.08
     först
    -0.07
     ychwan
    -0.07
     mitig
    -0.07
    _eff
    -0.07
     disturb
    -0.07
     kuongeza
    -0.07
     ಆರೋಪ
    -0.07
     atroc
    -0.07
    POSITIVE LOGITS
    -components
    0.08
     한번
    0.08
    ත්ත
    0.08
    0.07
    .APPLICATION
    0.07
     Barker
    0.07
    @",
    0.07
     shedding
    0.07
    0.07
     Вы
    0.07
    Act Density 0.002%

    No Known Activations