INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     نظم
    -0.09
     Bates
    -0.08
    nata
    -0.08
     आग
    -0.08
     erat
    -0.08
    izielle
    -0.07
     neuer
    -0.07
    我国
    -0.07
    -0.07
     solcher
    -0.07
    POSITIVE LOGITS
     reasons
    0.15
     razões
    0.13
     razones
    0.13
     raisons
    0.13
     Reasons
    0.12
    Reasons
    0.12
     காரண
    0.11
    理由
    0.11
     Gründen
    0.10
     الأسباب
    0.10
    Act Density 0.014%

    No Known Activations