INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     coefficient
    -0.09
     gems
    -0.08
     module
    -0.08
     rib
    -0.08
     enhancing
    -0.07
    														
    -0.07
     steel
    -0.07
    												
    -0.07
     roster
    -0.07
     gem
    -0.07
    POSITIVE LOGITS
    21
    0.18
    42
    0.09
    ۲۱
    0.08
    420
    0.08
    urope
    0.07
    021
    0.07
    _CS
    0.07
    :
    0.07
    214
    0.07
    216
    0.07
    Act Density 0.025%

    No Known Activations