INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     implicitly
    0.38
     !
    0.35
    ر
    0.34
     indeed
    0.33
     sort
    0.32
     अथवा
    0.31
     something
    0.31
    可以说
    0.31
    {
    0.31
    或其他
    0.30
    POSITIVE LOGITS
     that
    0.45
    that
    0.42
     bahawa
    0.41
     bahwa
    0.39
     що
    0.36
     ότι
    0.36
     что
    0.34
    𝘞
    0.34
     że
    0.33
    :"
    0.33
    Act Density 0.003%

    No Known Activations