INDEX
    Explanations

    The neuron activates on numeric literal tokens—especially floating‐point numbers.

    New Auto-Interp
    Negative Logits
    Invariant
    -0.07
    _circle
    -0.07
     Buttons
    -0.07
     червня
    -0.06
     nz
    -0.06
    ्कर
    -0.06
    ,mid
    -0.06
    startdate
    -0.06
     Arcade
    -0.06
     cripp
    -0.06
    POSITIVE LOGITS
     hizo
    0.07
     años
    0.07
    ////////////////////////////////////////////////////////////////////////////////
    0.07
    監督
    0.06
     누구
    0.06
     drm
    0.06
     pareja
    0.06
     obrig
    0.06
     settings
    0.05
    út
    0.05
    Act Density 0.030%

    No Known Activations