INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    лини
    -0.06
    uters
    -0.06
    /Gate
    -0.06
     دوباره
    -0.06
    -0.06
    -address
    -0.06
    یده
    -0.06
    ARRANT
    -0.06
    ď
    -0.06
     Ос
    -0.06
    POSITIVE LOGITS
    _tok
    0.07
    .(
    0.07
    0.07
    -addon
    0.07
     ;;↵
    0.07
    .OP
    0.07
     ski
    0.07
     første
    0.06
    drm
    0.06
     drinkers
    0.06
    Act Density 0.000%

    No Known Activations