INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Democr
    -0.07
     Outcome
    -0.07
    boat
    -0.07
     краще
    -0.06
     Drake
    -0.06
     μπ
    -0.06
     Guarantee
    -0.06
     zk
    -0.06
     Maharashtra
    -0.06
    μαι
    -0.06
    POSITIVE LOGITS
    ayar
    0.07
    pig
    0.07
    .querySelector
    0.07
     mere
    0.07
    onnen
    0.07
    identally
    0.06
    __,↵
    0.06
    .lin
    0.06
     »
    0.06
    íše
    0.06
    Act Density 0.024%

    No Known Activations