INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     untouched
    -0.08
     שימוש
    -0.07
     DB
    -0.07
    -0.07
     desc
    -0.07
     recharge
    -0.07
    -0.07
     DH
    -0.07
     FW
    -0.07
     पठ
    -0.07
    POSITIVE LOGITS
    Mex
    0.09
     അവതരിപ്പ
    0.09
    Magn
    0.08
     zomwe
    0.08
    .Atoi
    0.08
    Maz
    0.08
    Jew
    0.08
    Irish
    0.08
     cidad
    0.08
    ritten
    0.08
    Act Density 0.003%

    No Known Activations