INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     الخل
    -0.07
     strugg
    -0.07
    抽检
    -0.07
     muestra
    -0.07
    ลง
    -0.07
     nun
    -0.07
    -0.07
     troll
    -0.07
    uncio
    -0.07
    %↵
    -0.07
    POSITIVE LOGITS
     perí
    0.07
    _car
    0.07
    阿拉
    0.07
    -object
    0.07
     abilities
    0.07
    之前
    0.07
     incapac
    0.07
     Arithmetic
    0.07
    0.07
     governing
    0.07
    Act Density 0.016%

    No Known Activations