INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     verbal
    -0.08
     Mp
    -0.08
     thieves
    -0.07
     selle
    -0.07
     Fallon
    -0.07
     др
    -0.07
    ="//
    -0.07
     katk
    -0.07
     Alleg
    -0.07
    nr
    -0.07
    POSITIVE LOGITS
     choosing
    0.09
    bundet
    0.08
     обратиться
    0.08
    272
    0.08
     motherhood
    0.08
     asumir
    0.08
     digging
    0.08
     استخدام
    0.08
     اتباع
    0.08
     absolv
    0.07
    Act Density 0.081%

    No Known Activations