INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     تو
    -0.09
    baan
    -0.08
     Kam
    -0.08
    unst
    -0.07
     piger
    -0.07
    -0.07
     flawless
    -0.07
     pound
    -0.07
    Pole
    -0.07
     Command
    -0.07
    POSITIVE LOGITS
     lyn
    0.08
    /privacy
    0.08
    checks
    0.08
    EP
    0.08
     pren
    0.07
     don
    0.07
    侵犯
    0.07
     Nets
    0.07
     ipp
    0.07
    гов
    0.07
    Act Density 0.007%

    No Known Activations