INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     onmiddellijk
    -0.08
     одновременно
    -0.08
     кара
    -0.08
    Ο
    -0.08
     больше
    -0.07
     степ
    -0.07
     provoca
    -0.07
     разговор
    -0.07
    098
    -0.07
    Responses
    -0.07
    POSITIVE LOGITS
     schließlich
    0.16
     culmin
    0.14
     eventually
    0.14
     uiteindelijk
    0.14
     결국
    0.14
     finally
    0.14
     akhirnya
    0.13
     finalement
    0.13
     culminating
    0.13
     Eventually
    0.12
    Act Density 0.155%

    No Known Activations