INDEX
    Explanations

    содержит

    New Auto-Interp
    Negative Logits
     Damian
    -0.09
     Gut
    -0.08
     donn
    -0.08
     Sebastian
    -0.08
     Lider
    -0.08
     Sd
    -0.07
     говор
    -0.07
     dealings
    -0.07
     Samuel
    -0.07
     Muslim
    -0.07
    POSITIVE LOGITS
    нар
    0.08
    HI
    0.08
    0.07
     Parm
    0.07
     Cine
    0.07
    0.07
     washers
    0.07
    עלות
    0.07
    0.07
    Lam
    0.07
    Act Density 0.001%

    No Known Activations