INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    OND
    -0.07
    -0.07
     відповідно
    -0.07
     puff
    -0.07
     CLEAN
    -0.07
     cohort
    -0.06
    ust
    -0.06
    لاح
    -0.06
     Dodge
    -0.06
     chore
    -0.06
    POSITIVE LOGITS
     ли
    0.07
    aliases
    0.06
    .wrapper
    0.06
    	mem
    0.06
    ’ai
    0.06
     Professionals
    0.06
    tsky
    0.06
     učitel
    0.06
    renc
    0.06
    typeparam
    0.06
    Act Density 0.007%

    No Known Activations