INDEX
    Explanations

    incorrect answers and explanations

    New Auto-Interp
    Negative Logits
     suppress
    0.50
     idiot
    0.48
     Ils
    0.46
    ्याने
    0.46
     ఏద
    0.46
     for
    0.45
    лове
    0.45
     были
    0.45
    idelijk
    0.45
     weiterhin
    0.45
    POSITIVE LOGITS
    0.49
    0.48
    0.47
    0.47
    U
    0.47
    0.46
    0.46
    フランス
    0.45
     consecuencias
    0.45
    データ
    0.44
    Act Density 0.002%

    No Known Activations