INDEX
    Explanations

    almost, routinely, obligatory

    New Auto-Interp
    Negative Logits
    但是我
    0.53
    那我們
    0.47
     trenger
    0.46
    那我
    0.46
     nhưng
    0.45
     intéressant
    0.44
     ولكن
    0.42
     proposons
    0.42
     mutta
    0.42
    했지만
    0.41
    POSITIVE LOGITS
    至少
    0.48
     знают
    0.46
     обязательно
    0.46
     обов
    0.45
     routinely
    0.45
     mutlaka
    0.45
     знаком
    0.43
    几乎
    0.42
     almost
    0.42
    必备
    0.41
    Act Density 0.075%

    No Known Activations