INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Kurt
    -0.07
    กฎ
    -0.07
    山坡
    -0.06
    -0.06
    Intent
    -0.06
     Elle
    -0.06
    ndx
    -0.06
    тельно
    -0.06
     дир
    -0.06
    -0.06
    POSITIVE LOGITS
    (if
    0.07
    `}↵
    0.07
     irony
    0.07
    AMB
    0.07
    洗涤
    0.07
     athe
    0.07
     quotation
    0.07
    _ROLE
    0.07
    MESS
    0.06
     VARCHAR
    0.06
    Act Density 0.001%

    No Known Activations