INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     وعلى
    2.55
     behalf
    1.89
    ке
    1.52
    िक्रमा
    1.49
    то
    1.41
    ل
    1.39
     potrzeby
    1.38
    િ
    1.34
    िक
    1.30
    та
    1.27
    POSITIVE LOGITS
    רים
    1.59
    ו
    1.44
    ture
    1.38
    től
    1.37
    ्स
    1.34
    t
    1.33
    oft
    1.31
    ت
    1.27
    tól
    1.25
    ação
    1.23
    Act Density 0.109%

    No Known Activations