INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Panic
    -0.08
    ปกคร
    -0.07
    监督检查
    -0.07
    Tok
    -0.07
     ambit
    -0.07
    日本
    -0.07
    iliated
    -0.07
    人气
    -0.06
    虚拟
    -0.06
    anic
    -0.06
    POSITIVE LOGITS
     mogelijk
    0.07
     halfway
    0.07
     mee
    0.07
     openings
    0.07
     المسلحة
    0.07
    另一半
    0.07
     zwarte
    0.07
    0.07
    相关负责
    0.07
    ϛ
    0.06
    Act Density 0.002%

    No Known Activations