INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Multiply
    -0.08
     görüş
    -0.07
    (solution
    -0.07
    וף
    -0.07
     accepts
    -0.07
     pancreatic
    -0.07
     uz
    -0.07
    обав
    -0.06
    بارك
    -0.06
    قبول
    -0.06
    POSITIVE LOGITS
     pelic
    0.07
    民俗
    0.07
    教师
    0.07
     rekl
    0.07
    音乐会
    0.07
    明星
    0.06
    礼物
    0.06
    🍴
    0.06
    RTOS
    0.06
     etiqu
    0.06
    Act Density 0.010%

    No Known Activations