INDEX
    Explanations

    enumeration and quantification

    New Auto-Interp
    Negative Logits
    那一
    -1.21
    的那
    -1.07
    那种
    -1.00
    这一
    -0.96
    的一
    -0.90
     those
    -0.90
    ทั้ง
    -0.89
     サロン
    -0.88
     diverses
    -0.88
    這一
    -0.86
    POSITIVE LOGITS
    什么
    1.04
    ènes
    1.02
    帖最后由
    1.00
     participado
    1.00
     interesantes
    0.99
    0.96
     caído
    0.96
    řeba
    0.95
    しか
    0.94
     profundas
    0.94
    Act Density 0.003%

    No Known Activations