INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    étaient
    0.83
    0.81
     prototypical
    0.80
    0.74
     vignette
    0.74
    ással
    0.73
    ását
    0.73
    0.73
    pillar
    0.72
    ǽ
    0.70
    POSITIVE LOGITS
     help
    1.48
     ayuda
    1.37
     Help
    1.36
     pls
    1.32
     please
    1.27
     помочь
    1.25
     ayudar
    1.21
     plz
    1.17
     helps
    1.14
    Help
    1.14
    Act Density 0.213%

    No Known Activations