INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     объ
    -0.08
     virtue
    -0.08
     شاہ
    -0.08
     schwarzen
    -0.07
     Pela
    -0.07
     balconies
    -0.07
     autorizado
    -0.07
     пути
    -0.07
     pork
    -0.07
     Venice
    -0.07
    POSITIVE LOGITS
     beliefs
    0.14
    0.11
    认为
    0.09
     درباره
    0.09
     outlook
    0.09
     worldview
    0.09
    传播
    0.08
     apie
    0.08
     Regarding
    0.08
    体系
    0.08
    Act Density 0.033%

    No Known Activations