INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cx
    -0.08
    אוטומ
    -0.07
    итель
    -0.07
     ig
    -0.07
     pledged
    -0.07
    sched
    -0.07
    ount
    -0.07
    Tot
    -0.07
    -0.06
    Ik
    -0.06
    POSITIVE LOGITS
     matière
    0.08
     eauto
    0.07
    Shar
    0.07
     Uploaded
    0.07
    ʖ
    0.07
    HEET
    0.07
    禁区
    0.07
     najczę
    0.07
    $input
    0.07
    itung
    0.07
    Act Density 0.042%

    No Known Activations