INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     patient
    -0.07
     territory
    -0.06
    _mirror
    -0.06
     ملی
    -0.06
     protr
    -0.06
    Jordan
    -0.06
    ing
    -0.06
    gate
    -0.06
     endorse
    -0.06
     bunker
    -0.06
    POSITIVE LOGITS
     кош
    0.07
    0.07
     hedef
    0.07
     fabs
    0.07
     UClass
    0.06
    _SK
    0.06
    َى
    0.06
    tml
    0.06
     професій
    0.06
    πή
    0.06
    Act Density 0.002%

    No Known Activations