INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .Screen
    -0.08
    🐸
    -0.07
    👝
    -0.07
     Adds
    -0.07
    גבר
    -0.07
    -0.07
     bağ
    -0.07
     viz
    -0.07
    七月
    -0.06
     fig
    -0.06
    POSITIVE LOGITS
     있었
    0.08
     survive
    0.08
    ,
    0.07
     surviv
    0.07
    0.07
    旅程
    0.07
     hb
    0.07
     survived
    0.07
    0.07
     attended
    0.07
    Act Density 0.015%

    No Known Activations