INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Bite
    -0.06
    -rays
    -0.06
    rails
    -0.06
    Nome
    -0.06
     Ik
    -0.06
     FRA
    -0.06
    jící
    -0.06
     COD
    -0.06
    uent
    -0.06
     rit
    -0.06
    POSITIVE LOGITS
    ...
    0.07
    ,...↵↵
    0.07
    Decor
    0.07
    κτη
    0.07
    ...↵↵
    0.07
    ...
    0.07
    ...↵
    0.06
    /t
    0.06
    0.06
    ....
    0.06
    Act Density 0.003%

    No Known Activations