INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ny
    -0.07
     voile
    -0.07
     boot
    -0.07
    hina
    -0.07
    itzeko
    -0.07
     bolts
    -0.07
     Boot
    -0.07
     Nikola
    -0.07
    ipp
    -0.07
     vasit
    -0.07
    POSITIVE LOGITS
    गल
    0.08
    0.08
    .xx
    0.08
    '''
    ↵
    0.08
    [col
    0.08
    YY
    0.08
    यह
    0.08
    😀
    0.08
    {:
    0.08
     :)↵↵
    0.08
    Act Density 0.090%

    No Known Activations