INDEX
    Explanations

    descriptive nouns and adjectives

    New Auto-Interp
    Negative Logits
     ہوں۔
    0.67
     ہیں۔
    0.60
    ®.
    0.59
    ؟.
    0.57
    !।
    0.56
    0.56
    ++.
    0.55
    ؟
    0.55
    0.54
     کریں۔
    0.54
    POSITIVE LOGITS
    0.79
     असून
    0.79
    ,
    0.71
    していますが
    0.70
     있으며
    0.68
    ،
    0.65
    0.64
    ましたが
    0.64
    ,[
    0.63
     zowel
    0.63
    Act Density 0.044%

    No Known Activations