INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     مشاركة
    -0.08
    .Agent
    -0.07
     cosy
    -0.07
     instinct
    -0.07
    ente
    -0.07
    _Construct
    -0.07
    logen
    -0.07
    Te
    -0.07
     právní
    -0.07
    POSITIVE LOGITS
     exceeding
    0.11
     exceeded
    0.11
     exceed
    0.11
     exceeds
    0.11
     превыш
    0.08
    すぎ
    0.07
    uem
    0.07
    :`
    0.06
    ceed
    0.06
    zx
    0.06
    Act Density 0.010%

    No Known Activations