INDEX
    Explanations

    instructions across languages

    New Auto-Interp
    Negative Logits
     (
    0.71
    (
    0.63
     ،
    0.55
    ;
    0.55
    ,
    0.52
    0.50
    ara
    0.49
     (“
    0.49
     (&
    0.48
    \
    0.46
    POSITIVE LOGITS
    ل
    0.72
    на
    0.58
    0.56
    णूक
    0.55
    ق
    0.54
    Proyecto
    0.52
    वासीय
    0.51
    ის
    0.50
    ある
    0.50
     توانائی
    0.49
    Act Density 3.132%

    No Known Activations