INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    י
    0.52
     cosy
    0.50
    y
    0.50
     cozy
    0.47
     Ying
    0.45
    Есть
    0.45
    čkom
    0.44
    ায়
    0.43
    TOR
    0.43
    ronique
    0.43
    POSITIVE LOGITS
    та
    0.55
    ्ञ
    0.54
    azgo
    0.53
    ى
    0.50
    らを
    0.50
     директора
    0.47
     emeritus
    0.47
    のか
    0.46
     резко
    0.46
    们的
    0.45
    Act Density 0.179%

    No Known Activations