INDEX
    Explanations

    I can, but not explicitly

    New Auto-Interp
    Negative Logits
    不仅仅
    0.42
     best
    0.42
    best
    0.41
     surtout
    0.41
     przede
    0.38
    だけでなく
    0.37
     ziemlich
    0.37
    duh
    0.37
     nejen
    0.37
    OS
    0.37
    POSITIVE LOGITS
     unrelated
    0.73
    我可以
    0.72
     safer
    0.62
     safely
    0.57
     безопас
    0.57
     alternatif
    0.55
     alternativa
    0.54
     topik
    0.53
    代わりに
    0.53
    別の
    0.52
    Act Density 0.040%

    No Known Activations