INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ;
    
    
    ↵
    -0.07
     zayıf
    -0.06
    _DIS
    -0.06
     azimuth
    -0.06
    cean
    -0.06
     appart
    -0.06
    Correct
    -0.06
    urbed
    -0.06
    -0.05
     Bai
    -0.05
    POSITIVE LOGITS
    .selectAll
    0.07
     группы
    0.07
    0.07
     NYT
    0.07
     help
    0.07
    0.07
    地点
    0.06
     кан
    0.06
    ету
    0.06
     laughed
    0.06
    Act Density 0.011%

    No Known Activations