INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Gay
    -0.09
    ​↵
    -0.08
     Gay
    -0.08
    atr
    -0.07
    aport
    -0.07
     Gul
    -0.07
     XI
    -0.07
    ája
    -0.07
     מא
    -0.07
     Sak
    -0.07
    POSITIVE LOGITS
     beton
    0.08
     куз
    0.08
    кового
    0.08
     locom
    0.08
     beden
    0.08
     kos
    0.08
     confiance
    0.07
     propuesta
    0.07
     conexión
    0.07
     corre
    0.07
    Act Density 0.001%

    No Known Activations