INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Sus
    -0.07
    233
    -0.07
    ственный
    -0.07
     aparent
    -0.07
    -0.07
     تركيب
    -0.07
     تقنية
    -0.07
    uela
    -0.07
     تصميم
    -0.07
    contro
    -0.07
    POSITIVE LOGITS
     choix
    0.10
    _CHO
    0.10
     choice
    0.10
     choisir
    0.10
     Choice
    0.09
     choose
    0.09
    任选
    0.09
     pilih
    0.09
    Choice
    0.09
     escolha
    0.09
    Act Density 0.055%

    No Known Activations