INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     δεί
    -0.08
     tee
    -0.08
    ాయని
    -0.08
    ាក់ទ
    -0.08
     Pup
    -0.08
     glove
    -0.07
     Cooper
    -0.07
    นั้น
    -0.07
     Bland
    -0.07
     Fug
    -0.07
    POSITIVE LOGITS
    -facing
    0.08
    线
    0.08
    0.08
     fina
    0.08
     sider
    0.08
    line
    0.08
    居民
    0.08
     слав
    0.08
    flakes
    0.07
    0.07
    Act Density 0.011%

    No Known Activations