INDEX
    Explanations

    start of sentence

    New Auto-Interp
    Negative Logits
     inward
    -0.08
     czas
    -0.08
     parted
    -0.07
    เป็น
    -0.07
     darr
    -0.07
    -0.07
     reverted
    -0.07
     irresistible
    -0.07
     utterly
    -0.07
    -0.07
    POSITIVE LOGITS
     demonstrates
    0.08
    ák
    0.08
    านคร
    0.08
    0.08
     FACT
    0.08
    0.07
     плане
    0.07
    бек
    0.07
     frontières
    0.07
     Steen
    0.07
    Act Density 0.642%

    No Known Activations