INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     citizen
    -0.08
     jij
    -0.08
     jur
    -0.08
     ciudadano
    -0.08
    .Home
    -0.08
     citoy
    -0.07
     bring
    -0.07
    #
    -0.07
     citoyens
    -0.07
    -0.07
    POSITIVE LOGITS
     передач
    0.08
     drauf
    0.08
     jedn
    0.08
    laden
    0.08
     ट्रेन
    0.08
     leren
    0.08
     streamlined
    0.07
    вания
    0.07
     Nec
    0.07
     ран
    0.07
    Act Density 0.005%

    No Known Activations