INDEX
    Explanations

    contrasting or ordering information

    New Auto-Interp
    Negative Logits
     بهذا
    0.44
    ではなく
    0.42
     totiž
    0.41
    不像
    0.41
    のではなく
    0.39
     именно
    0.37
     nejen
    0.37
     Rather
    0.36
    Unlike
    0.35
    5
    0.35
    POSITIVE LOGITS
     hingegen
    0.72
     dagegen
    0.68
    則是
    0.65
     conversely
    0.59
     natomiast
    0.58
     наоборот
    0.55
    则是
    0.55
     zaś
    0.52
     idem
    0.51
     zase
    0.51
    Act Density 0.162%

    No Known Activations