INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     leisurely
    -0.08
    比赛
    -0.08
     ex
    -0.07
     statue
    -0.07
     contest
    -0.07
     Leisure
    -0.07
     modalities
    -0.07
    Lf
    -0.07
    年龄
    -0.07
     respe
    -0.07
    POSITIVE LOGITS
     Sticky
    0.11
     sticky
    0.10
    Sticky
    0.09
     Spr
    0.09
     મૂક
    0.09
     piled
    0.08
     صغيرة
    0.08
     spruce
    0.08
     chipped
    0.08
     magnets
    0.08
    Act Density 0.002%

    No Known Activations