INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    而不是
    0.62
    不像
    0.51
     rather
    0.46
    而非
    0.46
     Bukan
    0.46
     bukan
    0.44
    のではなく
    0.44
    Unlike
    0.43
     Rather
    0.42
    ではなく
    0.42
    POSITIVE LOGITS
     hingegen
    0.62
     напротив
    0.59
     dagegen
    0.58
     justru
    0.56
     наоборот
    0.54
     오히려
    0.51
     మాత్రం
    0.47
     चाहिँ
    0.46
     훨씬
    0.46
     juist
    0.46
    Act Density 0.198%

    No Known Activations