INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     התח
    -0.08
    .animation
    -0.08
     names
    -0.08
     naming
    -0.07
    _animation
    -0.07
    igd
    -0.07
    ابد
    -0.07
    .us
    -0.07
     animation
    -0.07
    ති
    -0.07
    POSITIVE LOGITS
     meiden
    0.09
    は禁止
    0.09
     dürfen
    0.09
     verhindern
    0.09
     kufanele
    0.08
     trained
    0.08
     darf
    0.08
     என்பது
    0.08
     запрещ
    0.08
     assistants
    0.08
    Act Density 0.009%

    No Known Activations