INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     grd
    -0.07
     memory
    -0.06
     asshole
    -0.06
     цвета
    -0.06
    bourg
    -0.06
     Cargo
    -0.06
     warmed
    -0.06
    Jet
    -0.06
     díky
    -0.06
    POSITIVE LOGITS
     schizophrenia
    0.08
     نظامی
    0.07
     Stability
    0.07
    OUS
    0.06
    IALOG
    0.06
    きな
    0.06
     demok
    0.06
    Skill
    0.06
     professionnel
    0.06
    ανα
    0.06
    Act Density 0.041%

    No Known Activations