INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    вор
    -0.08
    بان
    -0.08
    ρί
    -0.08
     leti
    -0.08
     fidél
    -0.08
    hale
    -0.07
    તે
    -0.07
     optimize
    -0.07
    enye
    -0.07
    سی
    -0.07
    POSITIVE LOGITS
     incest
    0.12
    亂倫
    0.10
     taboo
    0.10
    0.09
    uous
    0.09
     cousin
    0.09
     الزوج
    0.09
     prohibition
    0.09
     prohibited
    0.08
     unheard
    0.08
    Act Density 0.006%

    No Known Activations