INDEX
    Explanations

    named entities and phrases

    New Auto-Interp
    Negative Logits
    <unused2164>
    0.26
    <unused1823>
    0.26
    '.
    0.25
    <unused313>
    0.25
    <unused2155>
    0.25
    <unused933>
    0.24
    <unused484>
    0.24
     الهمزه
    0.23
    <unused415>
    0.23
     이러한
    0.23
    POSITIVE LOGITS
    -
    0.28
    _
    0.25
    T
    0.24
     baru
    0.23
    j
    0.22
    ov
    0.22
     tangan
    0.22
    Tube
    0.22
     mới
    0.22
     tôi
    0.21
    Act Density 0.221%

    No Known Activations