INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    巿
    -0.90
    abı
    -0.84
     nyelv
    -0.83
     écrite
    -0.82
    -0.79
    のではないか
    -0.79
    ueling
    -0.78
    -0.77
    五个
    -0.76
     társ
    -0.74
    POSITIVE LOGITS
     child
    2.70
    child
    2.33
     children
    1.72
    Child
    1.48
     CHILD
    1.47
     dziecko
    1.40
    孩子
    1.39
    children
    1.33
     Child
    1.31
    CHILD
    1.28
    Act Density 0.001%

    No Known Activations