INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _ad
    -0.07
    adas
    -0.07
     interior
    -0.07
    بیر
    -0.07
    -elements
    -0.06
     Bark
    -0.06
     Writing
    -0.06
    Central
    -0.06
    adan
    -0.06
    ecure
    -0.06
    POSITIVE LOGITS
     страш
    0.08
     полит
    0.06
     кому
    0.06
     cp
    0.06
     меш
    0.06
     лог
    0.06
     chlap
    0.06
     кіль
    0.06
    čet
    0.05
     elektr
    0.05
    Act Density 0.011%

    No Known Activations