INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     subtract
    0.58
     engl
    0.54
    (!)
    0.54
     taking
    0.53
     counterpart
    0.53
     padding
    0.52
     almost
    0.50
    ରା
    0.50
     Bessel
    0.48
     pseudo
    0.48
    POSITIVE LOGITS
    5
    0.85
     ৫০
    0.85
     ৬০
    0.83
    6
    0.80
    8
    0.80
     ৩০
    0.78
     ১০
    0.76
     ۲۰۰
    0.76
     sixty
    0.75
     ۲۰
    0.75
    Act Density 0.369%

    No Known Activations