INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    י
    0.82
    0.79
    מ
    0.75
    ي
    0.71
    OC
    0.70
    i
    0.70
    Ö
    0.69
    0.68
     croche
    0.66
     École
    0.65
    POSITIVE LOGITS
    s
    0.92
    br
    0.88
    ів
    0.69
    d
    0.66
     formatos
    0.65
     nuevos
    0.64
     інші
    0.63
     obiettivi
    0.63
    rals
    0.63
     científicos
    0.63
    Act Density 0.008%

    No Known Activations