INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .initial
    -0.07
    dio
    -0.07
    dos
    -0.07
    ाम
    -0.06
     charities
    -0.06
    чу
    -0.06
    صات
    -0.06
    property
    -0.06
    scri
    -0.06
    кор
    -0.06
    POSITIVE LOGITS
     allem
    0.07
    _VENDOR
    0.07
     pueblo
    0.06
    你们
    0.06
    FFF
    0.06
     Petit
    0.06
     usr
    0.06
    	es
    0.06
    طبي
    0.06
     عند
    0.06
    Act Density 0.089%

    No Known Activations