INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ه
    0.84
    a
    0.75
    ה
    0.64
    est
    0.62
    es
    0.61
    ir
    0.59
    el
    0.59
     chimiques
    0.57
    f
    0.57
    ک
    0.57
    POSITIVE LOGITS
    OOL
    0.67
     visual
    0.57
    0.55
    ONI
    0.55
    Q
    0.55
    0.55
    ман
    0.54
    нг
    0.54
    мара
    0.53
     respuesta
    0.52
    Act Density 0.010%

    No Known Activations