INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    kopf
    -0.09
    kart
    -0.09
     Bip
    -0.08
     verstandig
    -0.08
    бав
    -0.07
    konto
    -0.07
     plazas
    -0.07
     ident
    -0.07
    ICEF
    -0.07
    扶贫
    -0.07
    POSITIVE LOGITS
     Ariel
    0.07
    -monitor
    0.07
     affiliate
    0.07
    ಂತರ
    0.07
    0.07
     logr
    0.07
    'équipe
    0.07
    ώ
    0.07
    093
    0.07
     αντικ
    0.07
    Act Density 0.007%

    No Known Activations