INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <0x80>
    0.53
     desenvol
    0.50
     опу
    0.49
    ент
    0.44
     часу
    0.44
     исследование
    0.43
    $.}
    0.43
    USART
    0.43
    $.\\
    0.42
     arbejde
    0.42
    POSITIVE LOGITS
    ה
    0.75
    غ
    0.66
    י
    0.65
    ז
    0.61
    re
    0.59
    ת
    0.59
    ه
    0.58
    ל
    0.57
    ש
    0.57
    ن
    0.56
    Act Density 0.000%

    No Known Activations