INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    dür
    1.43
    mdan
    1.41
    });
    1.39
    larini
    1.35
     Jeh
    1.28
    larından
    1.28
    ssä
    1.27
    %>%
    1.24
    mesi
    1.23
     disdain
    1.22
    POSITIVE LOGITS
    ح
    1.84
    л
    1.83
    ق
    1.80
    ת
    1.71
    نك
    1.70
    ن
    1.67
     Однако
    1.66
    ير
    1.64
    1.58
     montée
    1.57
    Act Density 0.000%

    No Known Activations