INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    تبة
    -0.07
    )))
    ↵
    -0.07
    ovní
    -0.06
    _ix
    -0.06
    '].'"
    -0.06
     diets
    -0.06
    members
    -0.06
     وارد
    -0.06
    ')])↵
    -0.06
    @Test
    -0.06
    POSITIVE LOGITS
    eks
    0.07
     immortal
    0.07
    ensions
    0.07
    boarding
    0.07
    udder
    0.06
     forgetting
    0.06
    주의
    0.06
     territory
    0.06
    ?!
    0.06
     scarf
    0.06
    Act Density 0.026%

    No Known Activations