INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    力度
    -0.10
    -0.08
     énergie
    -0.07
    ihle
    -0.07
    女人
    -0.07
    女性
    -0.07
    যোগ্য
    -0.07
    科技
    -0.07
    -0.07
     kif
    -0.07
    POSITIVE LOGITS
    =(
    0.08
     мира
    0.08
     coder
    0.08
     pairs
    0.08
    -grid
    0.08
     Maker
    0.07
     Grid
    0.07
     constructed
    0.07
     satisfy
    0.07
     satisfies
    0.07
    Act Density 0.035%

    No Known Activations