INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ADDR
    -0.08
     مباراة
    -0.07
     vero
    -0.07
    -0.07
    🎁
    -0.07
    -0.07
    射手
    -0.07
    -0.06
     Đầu
    -0.06
     egret
    -0.06
    POSITIVE LOGITS
     Pandora
    0.07
     Prairie
    0.07
     rept
    0.07
    protect
    0.07
    0.07
     nutrient
    0.07
     doping
    0.07
    Dependency
    0.06
    -format
    0.06
     ngươi
    0.06
    Act Density 0.077%

    No Known Activations