INDEX
    Explanations

    verbs (doing/being)

    New Auto-Interp
    Negative Logits
    提高了
    0.82
     बढ़ाता
    0.75
     даст
    0.73
    给了
    0.73
     चाहता
    0.72
    提供了
    0.72
    进行了
    0.72
    获得了
    0.72
     পেয়েছে
    0.71
    采用了
    0.71
    POSITIVE LOGITS
     fanno
    1.96
     делают
    1.84
     fazem
    1.76
     machen
    1.73
     mají
    1.71
     führen
    1.68
    щают
    1.68
     versuchen
    1.66
     хотят
    1.66
    ifizieren
    1.66
    Act Density 0.060%

    No Known Activations