INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Interested
    -0.08
    nger
    -0.08
     frustrated
    -0.08
    CMC
    -0.07
    abez
    -0.07
     hive
    -0.07
     overwhelmed
    -0.07
     conflic
    -0.07
    Transactional
    -0.07
     മുന്ന
    -0.07
    POSITIVE LOGITS
     ip
    0.09
    0.08
     partial
    0.07
     conjunction
    0.07
    _ip
    0.07
     contribution
    0.07
    中特
    0.07
     típ
    0.07
     multiples
    0.07
     représentation
    0.07
    Act Density 0.026%

    No Known Activations