INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     prolonged
    -0.08
     proliferation
    -0.08
    -0.07
     frivol
    -0.07
     HC
    -0.07
     pek
    -0.07
     placebo
    -0.07
     développe
    -0.07
     hc
    -0.07
    voire
    -0.07
    POSITIVE LOGITS
     hingegen
    0.15
     naman
    0.11
     dagegen
    0.10
     similarly
    0.09
     ebenfalls
    0.09
     yine
    0.09
     Aman
    0.08
     Similar
    0.08
    .energy
    0.08
     Здесь
    0.08
    Act Density 0.104%

    No Known Activations