INDEX
    Explanations

    academic publications

    New Auto-Interp
    Negative Logits
    -0.08
     logarith
    -0.07
     saf
    -0.07
    特殊情况
    -0.07
    Beginning
    -0.06
    remarks
    -0.06
    Прав
    -0.06
    _literal
    -0.06
     المواطن
    -0.06
     luxurious
    -0.06
    POSITIVE LOGITS
    */}↵
    0.07
    进取
    0.07
    副总裁
    0.07
    0.07
    Phoenix
    0.07
    0.07
     מג
    0.07
    0.07
    معالجة
    0.06
    Cooldown
    0.06
    Act Density 0.006%

    No Known Activations