INDEX
    Explanations

    phrases indicating necessity or lack thereof

    after "need" (followed by "to")

    New Auto-Interp
    Negative Logits
     suaminya
    -0.40
     montée
    -0.37
    alyptus
    -0.34
    warted
    -0.33
     résine
    -0.33
    ,$_
    -0.32
     posibilidades
    -0.32
     jouet
    -0.31
     Comprometido
    -0.31
     setempat
    -0.31
    POSITIVE LOGITS
    不必
    0.69
    只需
    0.68
    只需要
    0.66
     hoeft
    0.64
    无需
    0.63
     unnecessary
    0.62
    不需要
    0.59
    也不用
    0.59
    不用
    0.59
    0.58
    Act Density 0.337%

    No Known Activations