INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     polite
    -0.07
    しかない
    -0.07
    停下
    -0.07
     msg
    -0.07
    借此
    -0.07
     имеют
    -0.07
     Amit
    -0.07
    Else
    -0.07
    -0.06
    קובע
    -0.06
    POSITIVE LOGITS
    0.09
    0.07
    0.07
     Nutrition
    0.07
    DSP
    0.07
    STEP
    0.07
     variation
    0.07
     Backbone
    0.07
     Dropout
    0.07
    апр
    0.07
    Act Density 0.011%

    No Known Activations