INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    '
    0.97
    ci
    0.90
    0.89
    지는
    0.86
    ၀၀
    0.82
    чня
    0.81
    kým
    0.81
    ası
    0.81
    σε
    0.80
    arı
    0.80
    POSITIVE LOGITS
    ي
    1.27
    ب
    1.12
    ע
    1.02
    1.02
    و
    0.94
    ن
    0.89
    ס
    0.88
    أ
    0.88
    0.86
    م
    0.86
    Act Density 0.000%

    No Known Activations