INDEX
    Explanations

    math problems

    New Auto-Interp
    Negative Logits
    ourcing
    -0.08
     entail
    -0.08
    stdafx
    -0.08
    -0.07
     Ortega
    -0.07
    ïs
    -0.07
     Orchid
    -0.07
    Gaming
    -0.07
     coco
    -0.07
     Barca
    -0.07
    POSITIVE LOGITS
    Как
    0.09
     JAV
    0.08
     cra
    0.08
    među
    0.08
    0.07
     किस
    0.07
    {lng
    0.07
    क्या
    0.07
    Ка
    0.07
    ůsob
    0.07
    Act Density 0.027%

    No Known Activations