INDEX
    Explanations

    determiners followed by nouns

    New Auto-Interp
    Negative Logits
    $\
    1.74
    y
    1.70
    ுங்கள்
    1.67
    est
    1.66
    bounce
    1.64
    hip
    1.60
     করিয়াছিল
    1.57
     empate
    1.57
    ities
    1.48
    Ве
    1.48
    POSITIVE LOGITS
     yüzden
    2.27
    ্যান্ড
    2.00
     sifat
    1.99
    ാഗ
    1.87
    ডস
    1.86
    elton
    1.85
    ampe
    1.81
    <bos>
    1.81
     које
    1.80
     nedenle
    1.77
    Act Density 0.279%

    No Known Activations