INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     refinery
    -0.07
    γωγή
    -0.07
    Mac
    -0.07
     Diablo
    -0.06
     tapes
    -0.06
    так
    -0.06
    Records
    -0.06
    ,the
    -0.06
     crude
    -0.06
    香蕉
    -0.06
    POSITIVE LOGITS
    是否
    0.14
     是否
    0.11
    duto
    0.07
    prü
    0.07
     STEM
    0.07
     isVisible
    0.07
     systemctl
    0.07
    ighth
    0.07
    вий
    0.07
    Mesh
    0.07
    Act Density 0.006%

    No Known Activations