INDEX
    Explanations

    data/dev (kernel code)

    New Auto-Interp
    Negative Logits
    perienced
    -0.07
    -0.07
     sympathetic
    -0.07
     לעית
    -0.07
    -0.07
     AUX
    -0.07
    ดาร
    -0.07
     Straßen
    -0.07
    statuses
    -0.06
    金山
    -0.06
    POSITIVE LOGITS
     knife
    0.08
    0.08
    *d
    0.07
     folder
    0.07
    headline
    0.07
    _|
    0.07
    .button
    0.07
    	row
    0.07
    קים
    0.07
    craper
    0.07
    Act Density 0.002%

    No Known Activations