INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    يسر
    -0.07
     fades
    -0.07
     Ox
    -0.07
    	Value
    -0.07
    yu
    -0.07
    𝙒
    -0.07
    -0.07
    拥护
    -0.07
    גוב
    -0.07
    POSITIVE LOGITS
    0.07
     director
    0.07
    برنامج
    0.07
    也就是说
    0.07
    0.07
    服装
    0.07
    0.06
    /tcp
    0.06
    层次
    0.06
    .freeze
    0.06
    Act Density 0.005%

    No Known Activations