INDEX
    Explanations

    prepositions followed by determiners

    New Auto-Interp
    Negative Logits
     작동
    0.17
     今回
    0.17
     ಬಳಕೆ
    0.16
     식으로
    0.16
    ํา
    0.16
     gebruik
    0.16
    ustrated
    0.16
     استفاده
    0.16
     对于
    0.15
    '
    0.15
    POSITIVE LOGITS
     these
    0.22
    these
    0.22
     różnych
    0.22
    这些
    0.21
     них
    0.20
     популярных
    0.20
     existentes
    0.20
     разных
    0.20
     them
    0.20
     ciertos
    0.20
    Act Density 0.436%

    No Known Activations