INDEX
    Explanations

    action followed by its object

    New Auto-Interp
    Negative Logits
         
    0.35
     гла
    0.34
       
    0.34
     เพิ่ม
    0.33
    .\
    0.33
     ,
    0.33
     ).
    0.32
     \
    0.31
     дву
    0.31
    0.30
    POSITIVE LOGITS
    的确
    0.38
    のではなく
    0.38
    currentUser
    0.37
     BECAUSE
    0.36
    还会
    0.35
     Elise
    0.35
    िएगा
    0.35
    isher
    0.34
    毫无
    0.34
    或其他
    0.34
    Act Density 0.017%

    No Known Activations