INDEX
    Explanations

    numbers and variables in lists

    New Auto-Interp
    Negative Logits
     adhipp
    0.43
    وسف
    0.41
    Metaxy
    0.40
     نجي
    0.37
    秘书
    0.36
    เนิน
    0.36
    0.36
    Соцмережа
    0.36
    0.36
    ֑
    0.35
    POSITIVE LOGITS
    1
    0.63
    x
    0.60
    u
    0.56
    f
    0.55
    op
    0.54
    a
    0.54
    w
    0.54
    old
    0.53
    b
    0.53
    all
    0.52
    Act Density 0.227%

    No Known Activations