INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -inspired
    -0.08
    cek
    -0.08
    れない
    -0.07
    だけど
    -0.07
     אלא
    -0.07
    ơi
    -0.06
    -0.06
     expires
    -0.06
    -0.06
    -0.06
    POSITIVE LOGITS
     Beat
    0.07
     Ordinary
    0.07
     anos
    0.07
     rational
    0.07
     entering
    0.07
     crushed
    0.06
    0.06
    𐤏
    0.06
    מעמד
    0.06
    无知
    0.06
    Act Density 0.024%

    No Known Activations