INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Contributor
    -0.08
     proportion
    -0.08
     resist
    -0.07
    كي
    -0.07
    Contribution
    -0.07
     projet
    -0.07
     ligament
    -0.07
     partenariat
    -0.07
     renfor
    -0.07
     \(
    -0.07
    POSITIVE LOGITS
    tring
    0.08
    oinhos
    0.08
     Ade
    0.08
     Loose
    0.07
    etõttu
    0.07
    áns
    0.07
     wyr
    0.07
    ня
    0.07
    0.07
     nts
    0.07
    Act Density 0.001%

    No Known Activations