INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ترك
    -0.08
     brill
    -0.08
     Aberdeen
    -0.07
     הכנסת
    -0.07
    持平
    -0.07
     français
    -0.07
    ensen
    -0.07
    .Enabled
    -0.07
    综艺
    -0.07
    -radius
    -0.07
    POSITIVE LOGITS
    ilestone
    0.07
    often
    0.07
    问题
    0.06
    0.06
    优美
    0.06
    0.06
     ROUT
    0.06
    atoms
    0.06
    0.06
    로부터
    0.06
    Act Density 0.001%

    No Known Activations