INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    是我们
    0.46
    ūsų
    0.42
     చక్ర
    0.40
    ardi
    0.40
    kers
    0.40
     كلكم
    0.40
    哪个
    0.39
     naszych
    0.38
     nossas
    0.38
     nostro
    0.37
    POSITIVE LOGITS
    他们
    1.48
    他們
    1.48
    他们的
    1.45
     mereka
    1.41
    他們的
    1.39
    该公司
    1.37
     their
    1.36
     他们
    1.36
     их
    1.35
     loro
    1.34
    Act Density 0.025%

    No Known Activations