INDEX
    Explanations

    foreign language prepositions

    New Auto-Interp
    Negative Logits
    z
    0.48
    ↵↵
    0.46
    er
    0.42
    '
    0.42
    e
    0.41
    um
    0.40
               
    0.39
           
    0.37
    o
    0.37
    ')
    0.34
    POSITIVE LOGITS
     in
    0.47
    מ
    0.46
    0.43
     세계
    0.41
     abdom
    0.40
    这个
    0.39
    ری
    0.37
    这里
    0.37
    0.37
    ใน
    0.36
    Act Density 0.984%

    No Known Activations