INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ERA
    -0.09
    لال
    -0.08
    -0.08
     teased
    -0.08
    φυ
    -0.08
    黑人
    -0.08
     таких
    -0.08
     атрыма
    -0.07
    _coef
    -0.07
    _area
    -0.07
    POSITIVE LOGITS
     sleeping
    0.10
     geöffnet
    0.09
     asleep
    0.08
     åb
    0.08
    opened
    0.08
     öpp
    0.08
     openen
    0.08
     trạng
    0.08
    状态
    0.08
     sleep
    0.08
    Act Density 0.075%

    No Known Activations