INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     locom
    -0.07
    weapons
    -0.07
    -0.07
    少数民族
    -0.07
    作为
    -0.06
    _Create
    -0.06
     создания
    -0.06
    -0.06
     pool
    -0.06
    -0.06
    POSITIVE LOGITS
    差异
    0.07
    教師
    0.07
    0.07
    بيعي
    0.06
     её
    0.06
     Regression
    0.06
     ó
    0.06
    問題
    0.06
    Ш
    0.06
    0.06
    Act Density 0.019%

    No Known Activations