INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cycle
    -0.07
     бороть
    -0.07
    θεια
    -0.06
     burned
    -0.06
    acists
    -0.06
    互联网
    -0.06
    _once
    -0.06
     dokonce
    -0.06
    面的
    -0.06
     descendants
    -0.06
    POSITIVE LOGITS
     CMP
    0.08
     introdu
    0.07
     applause
    0.07
    0.07
     digs
    0.06
    正常
    0.06
     DEVELO
    0.06
    _select
    0.06
    .animations
    0.06
     FIRST
    0.06
    Act Density 0.012%

    No Known Activations