INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    akin
    -0.08
     DD
    -0.08
    -0.08
     Dal
    -0.08
    Cpp
    -0.07
     Wing
    -0.07
    Tel
    -0.07
     Paragu
    -0.07
     Polit
    -0.07
     scall
    -0.07
    POSITIVE LOGITS
     κ
    0.09
     أنه
    0.08
    ೀತಿ
    0.08
    ه
    0.08
    ುದು
    0.07
     feats
    0.07
     skriv
    0.07
    0.07
     Hans
    0.07
     Fon
    0.07
    Act Density 0.011%

    No Known Activations