INDEX
    Explanations

    maintain relationships and states

    New Auto-Interp
    Negative Logits
     Ка
    0.93
     directa
    0.93
     է
    0.92
     muškar
    0.91
    يل
    0.89
     Бу
    0.89
     النها
    0.88
     الألم
    0.88
     اليس
    0.88
    0.88
    POSITIVE LOGITS
    ت
    1.49
    ר
    1.35
    ر
    1.34
    ق
    1.34
    ם
    1.28
    u
    1.24
    y
    1.20
    توان
    1.16
    1.15
    b
    1.13
    Act Density 0.022%

    No Known Activations