INDEX
    Explanations

    describing things as rich

    New Auto-Interp
    Negative Logits
    0.97
    ne
    0.88
    0.87
    ına
    0.84
    问题
    0.82
    一個
    0.80
     effectuées
    0.80
     espèces
    0.79
    nd
    0.79
    t
    0.79
    POSITIVE LOGITS
     rich
    1.32
     Rich
    1.19
     richer
    1.15
    rich
    1.06
    ،
    1.05
     richness
    1.04
    ו
    1.02
    و
    0.98
     S
    0.87
     C
    0.87
    Act Density 0.008%

    No Known Activations