INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    سة
    -0.07
    ерим
    -0.07
     lassen
    -0.07
     هنر
    -0.07
     outlook
    -0.06
    roman
    -0.06
    waitFor
    -0.06
    情報
    -0.06
    posite
    -0.06
     начинает
    -0.06
    POSITIVE LOGITS
     Bay
    0.09
     ін
    0.07
    beth
    0.07
    _line
    0.06
     vitality
    0.06
     dynamic
    0.06
     gli
    0.06
    //
    0.06
    Ь
    0.06
     bay
    0.06
    Act Density 0.001%

    No Known Activations