INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     NRC
    -0.07
     laut
    -0.07
     Haf
    -0.07
    xbf
    -0.07
     Maurice
    -0.07
     अभ
    -0.07
     사항
    -0.07
     hor
    -0.07
     groom
    -0.07
     translation
    -0.07
    POSITIVE LOGITS
     Toute
    0.08
     دا
    0.07
    Mand
    0.07
    Mozilla
    0.07
    itals
    0.07
     incar
    0.07
    dump
    0.07
    imali
    0.07
    Ful
    0.07
     Quest
    0.07
    Act Density 0.016%

    No Known Activations