INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    dir
    -0.08
    joy
    -0.07
    -0.07
    kr
    -0.07
    Una
    -0.07
    -0.07
    learn
    -0.07
    em
    -0.07
    VAL
    -0.07
    Hero
    -0.07
    POSITIVE LOGITS
     Schließlich
    0.10
     بالج
    0.09
     داریم
    0.09
     penit
    0.09
     البرلمان
    0.08
     verbl
    0.08
     BER
    0.08
     Natürlich
    0.08
    0.08
     μπ
    0.08
    Act Density 0.409%

    No Known Activations