INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kump
    -0.10
     buckle
    -0.09
     Grave
    -0.08
     él
    -0.08
     tin
    -0.08
     Tamb
    -0.08
     Hij
    -0.08
     curly
    -0.08
    Hij
    -0.08
     ribbon
    -0.08
    POSITIVE LOGITS
    mise
    0.08
    avy
    0.07
     Francis
    0.07
    0.07
    好了
    0.07
     ج
    0.07
    bos
    0.07
     sond
    0.07
    0.07
     flotte
    0.07
    Act Density 0.036%

    No Known Activations