INDEX
    Explanations

    time periods

    New Auto-Interp
    Negative Logits
     milieu
    -0.07
    zeigt
    -0.07
     hexadecimal
    -0.07
    十九
    -0.07
     inviting
    -0.07
     classe
    -0.06
    -0.06
     agréable
    -0.06
     הקוד
    -0.06
    -0.06
    POSITIVE LOGITS
    0.08
    ความ
    0.08
    Buffer
    0.07
     Dogs
    0.07
     Polly
    0.07
    Women
    0.07
    dog
    0.07
     thù
    0.07
     Gordon
    0.07
    都不敢
    0.07
    Act Density 0.177%

    No Known Activations