INDEX
    Explanations

    Twitter post IDs

    New Auto-Interp
    Negative Logits
     имя
    -0.07
     genuine
    -0.06
    بو
    -0.06
     eclips
    -0.06
     twe
    -0.06
    queryParams
    -0.06
    ods
    -0.06
    /octet
    -0.06
    irling
    -0.06
     `.
    -0.06
    POSITIVE LOGITS
    BN
    0.07
     bombings
    0.06
     Що
    0.06
    lası
    0.06
     MAS
    0.06
    ’est
    0.06
     Ελλάδα
    0.06
    comed
    0.06
    rape
    0.06
     وأ
    0.06
    Act Density 0.003%

    No Known Activations