INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    арх
    -0.07
     Typical
    -0.07
    들은
    -0.06
    شر
    -0.06
     merak
    -0.06
     khung
    -0.06
     Admin
    -0.06
     příležit
    -0.06
    -0.06
     dalších
    -0.06
    POSITIVE LOGITS
    tener
    0.07
     ADS
    0.06
    otech
    0.06
     natur
    0.06
     achter
    0.06
    ọc
    0.06
    _BE
    0.06
    หมด
    0.06
    .Success
    0.06
     sore
    0.06
    Act Density 0.009%

    No Known Activations