INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ul
    -0.08
     Cant
    -0.07
     giant
    -0.07
     mice
    -0.07
     Canc
    -0.07
     negative
    -0.07
     Walter
    -0.07
     آبی
    -0.06
     dialogue
    -0.06
     gray
    -0.06
    POSITIVE LOGITS
     profession
    0.16
     professions
    0.14
     Profession
    0.11
    0.08
    profession
    0.07
     Corbyn
    0.07
    ---@
    0.07
     buttonWithType
    0.07
    フェ
    0.07
    EFR
    0.07
    Act Density 0.004%

    No Known Activations