INDEX
    Explanations

    Japanese/Korean particles

    New Auto-Interp
    Negative Logits
    :true
    -0.07
    FINE
    -0.07
    +len
    -0.06
     nghỉ
    -0.06
    ischen
    -0.06
     плю
    -0.06
     Endpoint
    -0.06
     truck
    -0.06
     Από
    -0.06
     Аль
    -0.06
    POSITIVE LOGITS
    0.14
    성이
    0.10
    のが
    0.10
     사람들이
    0.10
    さんが
    0.10
     내가
    0.10
     그가
    0.09
    이가
    0.09
    지가
    0.09
    들이
    0.09
    Act Density 0.011%

    No Known Activations