INDEX
    Explanations

    identifies principal noun

    New Auto-Interp
    Negative Logits
    '
    1.91
    _
    1.30
              
    1.25
    '\
    1.23
    2
    1.21
    				
    1.21
    0
    1.16
             
    1.15
    '=
    1.14
                    
    1.10
    POSITIVE LOGITS
    م
    1.53
    ம்
    1.41
    ens
    1.30
    the
    1.22
    1.16
    1.13
    m
    1.07
    stays
    1.06
    س
    1.04
    ו
    1.04
    Act Density 0.070%

    No Known Activations