INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ………
    -0.08
     cité
    -0.08
     Veteran
    -0.08
     stagn
    -0.08
    稳定
    -0.08
    धी
    -0.08
    HAR
    -0.08
     sarcast
    -0.07
     dénon
    -0.07
     NEVER
    -0.07
    POSITIVE LOGITS
     eggs
    0.12
     egg
    0.11
     Eggs
    0.11
     шокол
    0.10
     ovos
    0.10
     itlog
    0.09
    egg
    0.09
     chocolade
    0.09
     Eier
    0.09
    Egg
    0.09
    Act Density 0.005%

    No Known Activations