INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    @pytest
    -0.07
     resta
    -0.07
    فوز
    -0.07
    普京
    -0.07
     Ferrari
    -0.07
     pockets
    -0.06
    Martin
    -0.06
    מוש
    -0.06
     endowed
    -0.06
    اسب
    -0.06
    POSITIVE LOGITS
     admon
    0.08
    avoid
    0.08
     besonders
    0.07
    road
    0.07
     saved
    0.07
    Avoid
    0.07
    消失了
    0.07
     Shooter
    0.07
     bf
    0.07
    逃避
    0.07
    Act Density 0.025%

    No Known Activations