INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .
    0.64
    The
    0.63
    0.59
    the
    0.56
     totiž
    0.55
    _.
    0.53
     namelijk
    0.52
    ;
    0.52
    不仅
    0.51
     natomiast
    0.50
    POSITIVE LOGITS
    )**
    0.83
    **)
    0.82
    )':
    0.79
    ?)
    0.77
    !)
    0.75
    ):
    0.75
    !)
    0.73
    !!)
    0.73
    *)
    0.72
    ):
    0.72
    Act Density 2.815%

    No Known Activations