INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ca
    -0.07
     cancer
    -0.07
    يلاد
    -0.06
     сделать
    -0.06
     building
    -0.06
     wine
    -0.06
    енс
    -0.06
     interactions
    -0.06
    626
    -0.06
    ningar
    -0.06
    POSITIVE LOGITS
    (ptr
    0.09
     ptr
    0.08
    ptr
    0.08
    PT
    0.07
    .defaultProps
    0.07
    PK
    0.07
     Patri
    0.07
     Pdf
    0.07
     patri
    0.07
     PTR
    0.07
    Act Density 0.003%

    No Known Activations