INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .et
    -0.08
    Already
    -0.07
    -0.07
    tn
    -0.07
     tile
    -0.07
     towel
    -0.07
     kullanılan
    -0.07
    -0.07
     Before
    -0.07
     Womens
    -0.06
    POSITIVE LOGITS
    0.08
    0.08
    尊敬
    0.07
    تمع
    0.07
    を考え
    0.07
    的想法
    0.07
    شخص
    0.07
     üzerinde
    0.06
     mayoría
    0.06
     Side
    0.06
    Act Density 0.013%

    No Known Activations