INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    UTO
    -0.07
    -0.07
     dictatorship
    -0.07
     Hanson
    -0.07
     prolifer
    -0.07
    警察
    -0.07
    ضة
    -0.07
    -0.06
    LABEL
    -0.06
    ása
    -0.06
    POSITIVE LOGITS
    ujících
    0.06
    	buff
    0.06
    (sqrt
    0.06
    ından
    0.05
    /animate
    0.05
    /inet
    0.05
    abus
    0.05
     Manufacturing
    0.05
    اكن
    0.05
    0.05
    Act Density 0.019%

    No Known Activations