INDEX
    Explanations

    but introducing contrast or negation

    New Auto-Interp
    Negative Logits
     bzw
    0.24
     arba
    0.22
     ಹಾಗೂ
    0.21
     IconButton
    0.21
    を中心
    0.20
    0.20
     vormen
    0.19
     ayudan
    0.19
     `/
    0.19
     beurre
    0.19
    POSITIVE LOGITS
     not
    0.34
    not
    0.29
     doesn
    0.28
     ikke
    0.28
     cannot
    0.28
    ไม่ใช่
    0.27
     lacks
    0.26
    不是
    0.26
     όχι
    0.26
     не
    0.25
    Act Density 0.619%

    No Known Activations