INDEX
    Explanations

    transitional phrases introducing specifics

    New Auto-Interp
    Negative Logits
     그러면은
    0.23
     précédents
    0.21
    िंग
    0.21
     gangs
    0.20
    但是我
    0.20
     którym
    0.20
     autres
    0.20
     ponds
    0.19
     manuals
    0.19
     której
    0.19
    POSITIVE LOGITS
    ,
    0.45
    ،
    0.39
    0.38
    0.33
    0.32
    ‌,
    0.25
    ,,
    0.24
    ٬
    0.24
    0.24
    0.23
    Act Density 0.455%

    No Known Activations