INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ýr
    -0.08
     braz
    -0.07
     файл
    -0.07
     oka
    -0.07
     Cot
    -0.07
     ลูก
    -0.07
    -0.07
     cot
    -0.07
     kaup
    -0.07
     bob
    -0.07
    POSITIVE LOGITS
    伦理
    0.09
    ethical
    0.09
    治理
    0.08
    意识
    0.08
    专项
    0.08
     ethics
    0.08
    0.08
     grapple
    0.08
     पहल
    0.08
     ethical
    0.07
    Act Density 0.006%

    No Known Activations