INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     valeur
    -0.08
    igsaw
    -0.07
     Scala
    -0.07
    doch
    -0.06
     buscar
    -0.06
    ولوژی
    -0.06
    azzo
    -0.06
    hões
    -0.06
    acción
    -0.06
     cómo
    -0.06
    POSITIVE LOGITS
     PP
    0.07
     Р
    0.07
     plaintiffs
    0.07
     IN
    0.07
     Cir
    0.06
     lighting
    0.06
    .n
    0.06
    モデル
    0.06
    _VLAN
    0.06
    イン
    0.06
    Act Density 0.047%

    No Known Activations