INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     upfront
    -0.08
    ÜR
    -0.08
    	pop
    -0.07
    -0.07
    פעולות
    -0.07
    Ol
    -0.07
    cone
    -0.07
    -0.07
     operatives
    -0.06
    .clock
    -0.06
    POSITIVE LOGITS
    (Chat
    0.07
    oul
    0.07
    Rights
    0.07
    .ribbon
    0.07
    可以从
    0.07
    establish
    0.07
    ʀ
    0.07
    基础设施
    0.07
    شا
    0.07
     conscience
    0.07
    Act Density 0.004%

    No Known Activations