INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Deng
    -0.09
     tack
    -0.08
    νονται
    -0.08
     besch
    -0.08
     Сен
    -0.08
     Junta
    -0.08
    νοντας
    -0.07
    Disc
    -0.07
    даны
    -0.07
    IMITER
    -0.07
    POSITIVE LOGITS
     imp
    0.08
     பால
    0.07
    0.07
     BPA
    0.07
     locker
    0.07
     पदार्थ
    0.07
     UB
    0.07
     worn
    0.07
    0.07
    (',
    0.07
    Act Density 0.007%

    No Known Activations