INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Displayed
    -0.07
     кино
    -0.07
    ContentLoaded
    -0.07
     tắm
    -0.07
    مراقب
    -0.07
     nackt
    -0.07
     bryster
    -0.07
    -0.07
     communism
    -0.07
     система
    -0.07
    POSITIVE LOGITS
    0.07
    给你们
    0.07
    0.07
    ؠ
    0.07
    הור
    0.07
     situation
    0.06
    (ind
    0.06
     clubs
    0.06
     handic
    0.06
    0.06
    Act Density 0.009%

    No Known Activations