INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     아니다
    -0.08
    じゃない
    -0.08
     get
    -0.07
     internet
    -0.07
    中共中央
    -0.07
     false
    -0.07
     Var
    -0.07
    Lord
    -0.07
     lança
    -0.07
     prince
    -0.07
    POSITIVE LOGITS
    景象
    0.08
    开盘
    0.08
    adian
    0.07
    0.07
    Prefs
    0.07
     cục
    0.07
    فريق
    0.07
    0.07
    VEN
    0.07
    Frames
    0.07
    Act Density 0.001%

    No Known Activations