INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    1.04
    ل
    0.79
    0.58
    0.56
    el
    0.55
    man
    0.55
    0.54
    و
    0.53
    л
    0.52
    or
    0.50
    POSITIVE LOGITS
    الية
    0.53
     is
    0.51
    0
    0.51
    вле
    0.50
    olées
    0.48
    },
    0.47
     are
    0.46
    ਾਲ
    0.46
     équipe
    0.45
    يل
    0.45
    Act Density 0.003%

    No Known Activations