INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     cogn
    -0.09
     направ
    -0.08
    /her
    -0.08
     tendencies
    -0.07
     centros
    -0.07
     сила
    -0.07
     Grat
    -0.07
    26
    -0.07
    /she
    -0.07
    CQ
    -0.07
    POSITIVE LOGITS
     paj
    0.07
    0.07
     disclaim
    0.07
     يبدو
    0.07
     মনে
    0.07
     Strange
    0.07
     Hayes
    0.07
    0.07
     ধারণ
    0.07
    0.07
    Act Density 0.018%

    No Known Activations