INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     teaching
    -0.07
    对立
    -0.07
    自主创新
    -0.07
     Alloy
    -0.07
    澄清
    -0.07
    迎合
    -0.06
     unfold
    -0.06
    alk
    -0.06
     chin
    -0.06
     Jesús
    -0.06
    POSITIVE LOGITS
    0.07
    Trans
    0.07
    ѓ
    0.07
    awai
    0.07
     verdiği
    0.06
    0.06
    0.06
    0.06
     לאתר
    0.06
    0.06
    Act Density 0.002%

    No Known Activations