INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     decenas
    0.86
    適切
    0.81
     grueso
    0.80
     sogenannten
    0.79
    <unused68>
    0.78
     বিশেষভাবে
    0.77
    specially
    0.77
     claramente
    0.77
    ത്തിലേക്ക്
    0.77
     wyłącznie
    0.76
    POSITIVE LOGITS
    <0xC2>
    0.85
    0.64
     particular
    0.60
    <unused2126>
    0.60
     ​​
    0.58
    0.58
     ­
    0.56
    0.54
    <start_of_image>
    0.54
    </
    0.53
    Act Density 1.265%

    No Known Activations