INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _score
    -0.08
    ographics
    -0.07
    _pen
    -0.07
     pen
    -0.07
    say
    -0.07
    812
    -0.07
    unker
    -0.07
     Kat
    -0.07
    .nio
    -0.07
     Mit
    -0.07
    POSITIVE LOGITS
     importantly
    0.09
    注明
    0.09
     כן
    0.08
     ध्यान
    0.08
     aandacht
    0.08
     تاکید
    0.08
     hierbij
    0.08
     beachten
    0.08
    Iv
    0.08
    tou
    0.07
    Act Density 0.017%

    No Known Activations