INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     its
    -0.79
     their
    -0.72
     food
    -0.65
     safety
    -0.64
     admission
    -0.61
     home
    -0.61
     our
    -0.60
     construction
    -0.59
     part
    -0.59
     release
    -0.59
    POSITIVE LOGITS
     stället
    0.91
     élevées
    0.86
     découver
    0.85
     lèvres
    0.85
     supérieurs
    0.84
     découvertes
    0.82
     enfans
    0.82
     télécharge
    0.82
     blessés
    0.81
     cérami
    0.80
    Act Density 0.001%

    No Known Activations