INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     پیشنه
    -0.07
     offen
    -0.07
    Substring
    -0.06
    πό
    -0.06
    estyle
    -0.06
     Dirt
    -0.06
    tbody
    -0.06
    ITH
    -0.06
     indeb
    -0.06
    -fields
    -0.06
    POSITIVE LOGITS
    Marvel
    0.07
     Marvel
    0.07
    Discover
    0.07
    部门
    0.06
    �名
    0.06
    derived
    0.06
     Kun
    0.06
     Sherlock
    0.06
     implied
    0.06
    0.06
    Act Density 0.004%

    No Known Activations