INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     **↵
    -0.07
    WX
    -0.07
     представляет
    -0.07
    أن
    -0.07
     }
    
    ↵
    -0.07
     puppet
    -0.07
    תמ
    -0.07
     şeklinde
    -0.07
     whe
    -0.07
     reels
    -0.06
    POSITIVE LOGITS
     코드
    0.08
    NSObject
    0.07
    0.07
    ản
    0.07
    0.07
     ללמוד
    0.07
    .LogError
    0.07
     cooked
    0.07
    诚信
    0.06
    0.06
    Act Density 0.014%

    No Known Activations