INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sui
    -0.08
     ב
    -0.08
     pomiędzy
    -0.07
    -0.07
    -0.07
    兼顾
    -0.07
    古人
    -0.07
    有益
    -0.07
     elsewhere
    -0.07
    不负
    -0.07
    POSITIVE LOGITS
     engines
    0.08
    כתיבה
    0.07
    烘干
    0.07
     */
    ↵
    ↵
    0.06
     society
    0.06
    دل
    0.06
    0.06
    打开
    0.06
     propelled
    0.06
    /type
    0.06
    Act Density 0.002%

    No Known Activations