INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     با
    -0.09
     להז
    -0.08
     وخ
    -0.08
     بيانات
    -0.08
     الصناعة
    -0.08
    ينه
    -0.08
    दर
    -0.08
    ىلار
    -0.08
     الاجتماع
    -0.08
     المالية
    -0.08
    POSITIVE LOGITS
     sn
    0.08
     ornament
    0.07
    VII
    0.07
    タン
    0.07
    0.07
     ТВ
    0.07
    Would
    0.07
    estone
    0.07
    Towards
    0.07
     teksten
    0.07
    Act Density 0.002%

    No Known Activations