INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Vir
    -0.09
     vir
    -0.08
    -0.08
     aigu
    -0.08
    Vir
    -0.07
    -0.07
     vas
    -0.07
     disgust
    -0.07
    ứng
    -0.07
    hv
    -0.07
    POSITIVE LOGITS
     undertaken
    0.13
     pun
    0.08
    शील
    0.08
    成果
    0.08
     liability
    0.07
     endeavors
    0.07
     obl
    0.07
     unborn
    0.07
    0.07
    性质
    0.07
    Act Density 0.011%

    No Known Activations