INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ND
    0.86
    TI
    0.85
    да
    0.79
    NIC
    0.79
    TA
    0.76
    可以让
    0.75
    TT
    0.74
    NI
    0.73
    อยู่ที่
    0.73
    .
    0.72
    POSITIVE LOGITS
     as
    1.30
     jako
    1.17
     sebagai
    1.13
    作为一个
    1.13
    之为
    1.09
    作为
    1.07
    作為
    1.05
     Sebagai
    1.03
     ως
    0.99
     як
    0.99
    Act Density 0.595%

    No Known Activations