INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    💕
    -0.07
    _vendor
    -0.07
     perfume
    -0.07
     Likes
    -0.07
     Sophie
    -0.07
    Rotor
    -0.07
    Keywords
    -0.07
     excuse
    -0.06
     EOS
    -0.06
    	pl
    -0.06
    POSITIVE LOGITS
    很难
    0.08
    很少
    0.07
    0.07
     جدا
    0.07
     الخبر
    0.07
     Inherits
    0.07
    微量元素
    0.07
    0.07
     kunne
    0.06
    0.06
    Act Density 0.003%

    No Known Activations