INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    athlon
    -0.06
    div
    -0.06
    iants
    -0.06
     вок
    -0.06
     Murphy
    -0.06
     Chips
    -0.06
     cracks
    -0.06
    ęż
    -0.06
    _%
    -0.05
     अगर
    -0.05
    POSITIVE LOGITS
    0.07
     nghiệ
    0.07
     roof
    0.06
    olec
    0.06
     instructional
    0.06
     styles
    0.06
    幹線
    0.06
    MATCH
    0.06
    ’↵↵
    0.06
    0.06
    Act Density 0.012%

    No Known Activations