INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Zw
    -0.07
    contr
    -0.07
    -out
    -0.07
     times
    -0.07
    -0.07
     contraction
    -0.07
    Difference
    -0.07
    :\
    -0.07
     conf
    -0.06
    Hub
    -0.06
    POSITIVE LOGITS
    0.08
     ener
    0.07
    inda
    0.07
    ece
    0.07
    场面
    0.07
    ление
    0.07
     mammals
    0.07
     beginners
    0.07
    去世
    0.07
     какие
    0.07
    Act Density 0.007%

    No Known Activations