INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    普通的
    0.38
     aumentar
    0.37
     बढ़ाते
    0.37
     aumentare
    0.37
    0.36
     egym
    0.35
     मिश्र
    0.35
    uttle
    0.35
    CJK
    0.35
     poveć
    0.35
    POSITIVE LOGITS
     Яро
    0.42
    🥰
    0.40
     недо
    0.39
    azaki
    0.39
    कांड
    0.38
     UPDATE
    0.38
     Ее
    0.37
     완료
    0.36
     база
    0.36
     마무리
    0.36
    Act Density 0.000%

    No Known Activations