INDEX
    Explanations

    logical/mathematical reasoning

    New Auto-Interp
    Negative Logits
    -0.07
     uku
    -0.07
    -0.07
     trin
    -0.07
    三级
    -0.07
    hero
    -0.07
    695
    -0.07
     Platinum
    -0.07
    Ved
    -0.07
    storm
    -0.07
    POSITIVE LOGITS
    तर
    0.09
    ವಾ
    0.08
    ידע
    0.08
     কিংবা
    0.08
    0.08
     iff
    0.08
     vs
    0.08
    还是假的
    0.08
     соответствует
    0.08
     först
    0.08
    Act Density 0.076%

    No Known Activations