INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     iodine
    -0.08
     fancy
    -0.07
     прог
    -0.07
     bul
    -0.07
    .system
    -0.07
     Gab
    -0.07
    ALLY
    -0.07
     Bele
    -0.07
    Src
    -0.07
     Mich
    -0.07
    POSITIVE LOGITS
     дор
    0.08
    0.08
     செய்ய
    0.08
    0.07
     Dob
    0.07
    you
    0.07
      
    0.07
     mend
    0.07
    いた
    0.07
    完善
    0.07
    Act Density 0.009%

    No Known Activations