INDEX
    Explanations

    math multiple choice

    New Auto-Interp
    Negative Logits
    .swing
    -0.08
    .friend
    -0.08
     ш
    -0.08
     има
    -0.08
    .instagram
    -0.07
     Wikimedia
    -0.07
     premise
    -0.07
    .total
    -0.07
     memes
    -0.07
    -blog
    -0.07
    POSITIVE LOGITS
    ΠΑ
    0.08
     pomoć
    0.08
     Fälle
    0.08
    KT
    0.08
     आदि
    0.08
     Böyle
    0.08
    ಜಿ
    0.08
     transluc
    0.08
    üche
    0.08
     Ζ
    0.07
    Act Density 0.051%

    No Known Activations