INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .He
    -0.07
     rider
    -0.07
     нею
    -0.06
    Bei
    -0.06
     unh
    -0.06
     Ben
    -0.06
    -0.06
    fuse
    -0.06
     Bever
    -0.06
     plum
    -0.06
    POSITIVE LOGITS
    /Web
    0.07
     Odkazy
    0.07
     foreign
    0.07
    用的
    0.06
    政治
    0.06
    CB
    0.06
    0.06
    year
    0.06
    .glob
    0.06
    knife
    0.06
    Act Density 0.009%

    No Known Activations