INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     infant
    -0.08
    Nathan
    -0.08
     وجود
    -0.08
     rage
    -0.07
     Fan
    -0.07
    Ger
    -0.07
     lanc
    -0.07
     Gee
    -0.07
     tiger
    -0.07
     traff
    -0.07
    POSITIVE LOGITS
    后的
    0.10
    回来
    0.08
    -tail
    0.08
     offset
    0.08
    -origin
    0.08
    ുകള
    0.07
     verwijderd
    0.07
     shifted
    0.07
     Removed
    0.07
     Away
    0.07
    Act Density 0.010%

    No Known Activations