INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    гает
    0.78
     Worte
    0.71
    гают
    0.70
    습니다
    0.70
    тельном
    0.66
    älle
    0.66
     $€
    0.65
     herum
    0.64
    <unused1019>
    0.64
    𝕥
    0.63
    POSITIVE LOGITS
    سی
    0.78
     smears
    0.73
     Rookie
    0.73
    lio
    0.71
     ببین
    0.71
    lz
    0.70
    خ
    0.70
    भू
    0.70
     beanie
    0.70
     seedlings
    0.70
    Act Density 0.002%

    No Known Activations