INDEX
    Explanations

    performance or accuracy

    New Auto-Interp
    Negative Logits
     verschiedene
    -0.07
     تريد
    -0.07
     המבקש
    -0.07
    -0.06
     Türkçe
    -0.06
     يريد
    -0.06
    -0.06
    -0.06
     Selected
    -0.06
     سبيل
    -0.06
    POSITIVE LOGITS
    	app
    0.07
    	Label
    0.07
    socket
    0.07
    0.07
    礼貌
    0.07
     debt
    0.07
    arra
    0.07
    bai
    0.07
    0.06
    Fashion
    0.06
    Act Density 0.043%

    No Known Activations