INDEX
    Explanations

    improvement

    New Auto-Interp
    Negative Logits
     ebb
    -0.09
    ORB
    -0.08
    进行了
    -0.08
     الإسلامية
    -0.08
    ��
    -0.07
    GU
    -0.07
     الإسلام
    -0.07
    mit
    -0.07
     Administração
    -0.07
    -0.07
    POSITIVE LOGITS
     nữa
    0.08
     quality
    0.08
    ுமான
    0.07
     ży
    0.07
    と思
    0.07
     depender
    0.07
    teness
    0.07
     schn
    0.07
    _THAN
    0.07
     Iso
    0.07
    Act Density 0.038%

    No Known Activations