INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ài
    -0.79
     unfolding
    -0.78
    出身
    -0.77
    Ucraina
    -0.74
     おり
    -0.71
    تے
    -0.71
    ída
    -0.70
    nesses
    -0.69
    とする
    -0.69
    のようです
    -0.69
    POSITIVE LOGITS
    gum
    1.68
     bubble
    1.58
     Bubble
    1.55
    bubble
    1.52
    bubbles
    1.39
     bubbles
    1.36
     bub
    1.34
    Bubble
    1.26
    Bubbles
    1.23
     Bubbles
    1.20
    Act Density 0.017%

    No Known Activations