INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Hidden
    -0.08
    "f
    -0.07
    -0.07
     Makeup
    -0.07
    Wind
    -0.07
    -0.07
    מע
    -0.07
    .speed
    -0.07
    -0.07
     תפקיד
    -0.07
    POSITIVE LOGITS
    医院
    0.07
    而后
    0.07
    -post
    0.07
    -center
    0.07
    -load
    0.07
    .schema
    0.07
     حالة
    0.07
     stored
    0.06
    ขาย
    0.06
     authored
    0.06
    Act Density 0.001%

    No Known Activations