INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ǹ
    0.31
     博文
    0.31
     কোম্প
    0.30
    cina
    0.29
    ća
    0.29
    bef
    0.29
     关于
    0.29
     に関
    0.29
     ב
    0.29
     состоялась
    0.28
    POSITIVE LOGITS
     stalking
    0.34
     typhoid
    0.32
     universo
    0.31
    ग्रस्त
    0.31
     tyranny
    0.30
     sécher
    0.29
     सूख
    0.29
     élev
    0.29
     শিশুদের
    0.28
    ช่วง
    0.28
    Act Density 0.001%

    No Known Activations