INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     NYC
    -0.08
     نح
    -0.08
     Fußball
    -0.07
    -0.07
     продукты
    -0.07
    akun
    -0.07
     Queen
    -0.07
     Bắc
    -0.07
    ಲ್ಪ
    -0.07
     queen
    -0.07
    POSITIVE LOGITS
     individuality
    0.12
     индивиду
    0.11
     individuelle
    0.11
     individuo
    0.10
    주의
    0.10
     individuellen
    0.10
     individuelles
    0.10
     individuales
    0.10
     individuel
    0.10
    ividual
    0.10
    Act Density 0.016%

    No Known Activations