INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     famous
    -0.09
     Erf
    -0.08
     erfahren
    -0.08
     המש
    -0.08
     fashionable
    -0.07
     famed
    -0.07
     coupling
    -0.07
    Kommun
    -0.07
     Realität
    -0.07
     kommun
    -0.07
    POSITIVE LOGITS
     अश
    0.08
     agro
    0.08
    istro
    0.07
     comply
    0.07
     compliance
    0.07
    'int
    0.07
     соблюдать
    0.07
     বাক
    0.07
     speaks
    0.07
     complies
    0.07
    Act Density 0.147%

    No Known Activations