INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     KV
    -0.08
    Rev
    -0.07
    &w
    -0.07
    BX
    -0.07
    他是
    -0.07
    将成为
    -0.07
     better
    -0.07
    /header
    -0.07
     v
    -0.07
     Fuß
    -0.07
    POSITIVE LOGITS
    حساب
    0.07
    бин
    0.07
    生命的
    0.07
     finds
    0.07
    verbosity
    0.06
    0.06
    מרחק
    0.06
    之争
    0.06
    疾病
    0.06
    -binding
    0.06
    Act Density 0.007%

    No Known Activations