INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     awk
    -0.09
     vors
    -0.08
     beil
    -0.08
     består
    -0.07
     Hok
    -0.07
    -0.07
     eff
    -0.07
    -0.07
     perceive
    -0.07
     KW
    -0.07
    POSITIVE LOGITS
     wählen
    0.11
     tercih
    0.10
     선택
    0.10
    选择
    0.09
     choice
    0.09
     выбира
    0.09
    Choice
    0.09
     pilihan
    0.09
     scelta
    0.09
    choice
    0.08
    Act Density 0.044%

    No Known Activations