INDEX
    Explanations

    transition words introducing conclusions

    New Auto-Interp
    Negative Logits
     isotherms
    0.22
     scler
    0.21
     decryption
    0.20
     restraints
    0.20
     axles
    0.20
     charms
    0.20
     prohibits
    0.19
     painkillers
    0.19
     anses
    0.19
     <
    0.19
    POSITIVE LOGITS
    с
    0.26
    ik
    0.25
     we
    0.24
    我們
    0.24
     it
    0.23
    0.23
    什么
    0.22
    í
    0.22
    0.22
    我的
    0.21
    Act Density 0.871%

    No Known Activations