INDEX
    Explanations

    punctuation and common words

    New Auto-Interp
    Negative Logits
     внутр
    -0.07
     прит
    -0.06
    ,比
    -0.06
    цвет
    -0.06
     Approx
    -0.06
    бина
    -0.06
    (Direction
    -0.06
     lorsque
    -0.06
     vient
    -0.06
    -0.06
    POSITIVE LOGITS
    Yu
    0.07
     nam
    0.07
    なん
    0.07
     Bathroom
    0.06
     тисяч
    0.06
     trainer
    0.06
    153
    0.06
     flies
    0.06
     Yam
    0.06
    ician
    0.06
    Act Density 0.062%

    No Known Activations