INDEX
    Explanations

    finished, discarded, choices, laughter

    New Auto-Interp
    Negative Logits
    0
    0.55
    era
    0.51
    com
    0.50
    4
    0.50
    1
    0.48
    ini
    0.48
    drop
    0.47
    6
    0.47
    3
    0.46
    inga
    0.46
    POSITIVE LOGITS
    0.55
    0.51
    ادة
    0.47
    预算
    0.47
    )};
    0.46
    0.46
     الط
    0.46
    北京市
    0.45
    解决了
    0.45
    的能力
    0.45
    Act Density 0.003%

    No Known Activations