INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     fim
    -0.08
     Copper
    -0.08
     compensation
    -0.07
    -vous
    -0.07
    Cer
    -0.07
    -0.07
     wyk
    -0.07
    angel
    -0.07
    halte
    -0.07
     grille
    -0.07
    POSITIVE LOGITS
     asi
    0.08
    -thirds
    0.08
     Cohen
    0.08
    (二
    0.07
    autos
    0.07
     males
    0.07
    0.07
     females
    0.07
     SID
    0.07
    ിയായി
    0.07
    Act Density 0.005%

    No Known Activations