INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     shooter
    -0.07
     професій
    -0.07
    ículo
    -0.06
    ları
    -0.06
    nesia
    -0.06
     shooters
    -0.06
     BL
    -0.06
    pw
    -0.06
    -0.06
    uridad
    -0.06
    POSITIVE LOGITS
     Zend
    0.15
    Zend
    0.15
     zend
    0.12
     Send
    0.07
     transcend
    0.07
    0.07
     ZEND
    0.07
    Universal
    0.07
    end
    0.07
     učitel
    0.07
    Act Density 0.001%

    No Known Activations