INDEX
    Explanations

    Large language model behaviors

    New Auto-Interp
    Negative Logits
    ilidade
    0.63
     konnte
    0.53
    }}=\
    0.52
    Ihr
    0.49
    					
    0.47
    Ein
    0.47
     könnte
    0.47
     charakter
    0.46
     préstamo
    0.46
     kunde
    0.45
    POSITIVE LOGITS
     cobalt
    0.54
     blacksmith
    0.52
     Magnesium
    0.48
    циям
    0.47
    0.47
     Housing
    0.47
     Cobalt
    0.46
     Lao
    0.46
     Delft
    0.46
     Katie
    0.45
    Act Density 0.001%

    No Known Activations