INDEX
    Explanations

    legal determinations

    New Auto-Interp
    Negative Logits
    ophage
    -0.07
    考古
    -0.07
    博彩
    -0.07
    .Stop
    -0.07
    oids
    -0.07
     nehmen
    -0.06
     شهر
    -0.06
     larger
    -0.06
    รอ
    -0.06
     architectures
    -0.06
    POSITIVE LOGITS
    عارض
    0.07
     الخلي
    0.07
    تكلم
    0.07
    0.07
     כד
    0.06
    事先
    0.06
     intimidating
    0.06
    	unset
    0.06
    0.06
     >&
    0.06
    Act Density 0.031%

    No Known Activations