INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Flexible
    -0.08
    -0.08
     inmobili
    -0.07
     Earl
    -0.07
     continuación
    -0.07
     Hungry
    -0.07
     geht
    -0.07
    uidas
    -0.07
     Below
    -0.07
    Flexible
    -0.07
    POSITIVE LOGITS
     symmetrical
    0.16
     symmetry
    0.16
     symmetric
    0.14
     invari
    0.11
     sym
    0.10
    sym
    0.10
    ymmetric
    0.09
     exploited
    0.09
     centros
    0.09
     wzglę
    0.09
    Act Density 0.035%

    No Known Activations