INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bour
    -0.07
    mt
    -0.07
    nant
    -0.07
     hookup
    -0.07
    -0.07
    -0.07
    -0.06
    peri
    -0.06
    善良
    -0.06
    -0.06
    POSITIVE LOGITS
    قوانين
    0.08
     никто
    0.08
    日军
    0.08
    退款
    0.08
    rules
    0.07
     سريع
    0.07
     disputed
    0.07
     atrocities
    0.07
    Authenticated
    0.07
     disappointment
    0.07
    Act Density 0.003%

    No Known Activations