INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Mana
    -0.08
    thus
    -0.08
    当然
    -0.08
    Bitcoin
    -0.07
     نظم
    -0.07
    anejo
    -0.07
    ambia
    -0.07
     اینکه
    -0.07
     گفته
    -0.07
    此外
    -0.07
    POSITIVE LOGITS
     Vet
    0.09
     vet
    0.09
     оп
    0.08
    0.08
     Das
    0.07
     teint
    0.07
     Wilhelm
    0.07
    ши
    0.07
    ansson
    0.07
     кра
    0.07
    Act Density 0.032%

    No Known Activations