INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     deber
    -0.09
    -0.07
     simp
    -0.07
     ven
    -0.07
     gn
    -0.07
     bel
    -0.07
    Kot
    -0.07
     WH
    -0.07
    ব্য
    -0.07
     ph
    -0.07
    POSITIVE LOGITS
     vantage
    0.08
     Tyr
    0.08
    0.07
    理由
    0.07
     набор
    0.07
    0.07
     Hast
    0.07
    Mil
    0.07
     Goddess
    0.07
     freely
    0.07
    Act Density 0.020%

    No Known Activations