INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     stab
    -0.08
     romans
    -0.08
    luk
    -0.08
    wis
    -0.08
    anc
    -0.08
    ッグ
    -0.07
    inge
    -0.07
    UVW
    -0.07
     കാസ
    -0.07
    Basics
    -0.07
    POSITIVE LOGITS
     conceal
    0.09
     собой
    0.09
     происх
    0.09
     mistakes
    0.08
     Herkunft
    0.08
     Реп
    0.08
     lineage
    0.08
     compañ
    0.08
    0.07
     unethical
    0.07
    Act Density 0.023%

    No Known Activations