INDEX
    Explanations

    action verbs and outcomes

    New Auto-Interp
    Negative Logits
    f
    0.68
    j
    0.59
    b
    0.59
    c
    0.56
    p
    0.54
     {
    0.51
    <0x80>
    0.50
    x
    0.50
    de
    0.49
    a
    0.48
    POSITIVE LOGITS
    able
    0.80
    ings
    0.73
    िंग
    0.73
    0.69
    િંગ
    0.65
    ers
    0.64
    する
    0.61
    ینگ
    0.59
    者は
    0.59
     کردن
    0.58
    Act Density 0.200%

    No Known Activations