INDEX
    Explanations

    end of lists of examples

    New Auto-Interp
    Negative Logits
     beiden
    0.55
     beide
    0.48
     begge
    0.44
     Beide
    0.41
     negligible
    0.40
     oba
    0.39
     ambos
    0.39
    这两个
    0.39
     namely
    0.38
    比如說
    0.38
    POSITIVE LOGITS
    といった
    0.54
     इत्यादी
    0.53
    どれ
    0.49
    这些
    0.49
     ইত্যাদি
    0.48
     тощо
    0.46
     etc
    0.46
    這些
    0.46
    etc
    0.45
    いずれ
    0.45
    Act Density 0.560%

    No Known Activations