INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    brick
    -0.06
     sqr
    -0.06
    paragus
    -0.06
    	instance
    -0.06
    -0.06
     а
    -0.06
    money
    -0.06
    flt
    -0.06
    GPC
    -0.06
     boosted
    -0.06
    POSITIVE LOGITS
     Namen
    0.07
     Infer
    0.07
     науков
    0.06
     Glow
    0.06
     hỗ
    0.06
    0.06
    ceptors
    0.06
     před
    0.06
    erne
    0.06
     SPD
    0.06
    Act Density 0.048%

    No Known Activations