INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     incididunt
    -0.08
     objectively
    -0.07
    專家
    -0.07
    文物
    -0.07
    교통
    -0.07
    לוט
    -0.06
    已被
    -0.06
    استقلال
    -0.06
     regain
    -0.06
    -0.06
    POSITIVE LOGITS
    0.08
     Paper
    0.07
    お話
    0.07
    0.07
    0.07
     كذلك
    0.07
    做工
    0.07
     caso
    0.07
    kazał
    0.07
     לחבר
    0.06
    Act Density 0.060%

    No Known Activations