INDEX
    Explanations

    Medical/Scientific contexts

    New Auto-Interp
    Negative Logits
    (selected
    -0.07
     الأخ
    -0.07
    产出
    -0.06
    INTERNAL
    -0.06
    ǝ
    -0.06
    :variables
    -0.06
     Take
    -0.06
     eat
    -0.06
     pornô
    -0.06
     choices
    -0.06
    POSITIVE LOGITS
    0.07
    Không
    0.07
    ↵        
    ↵
    0.07
    EventType
    0.06
    的眼神
    0.06
    年轻的
    0.06
     RTE
    0.06
    双重
    0.06
    可能會
    0.06
    лит
    0.06
    Act Density 0.393%

    No Known Activations