INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    oud
    -0.08
    imit
    -0.08
     aforementioned
    -0.07
     sait
    -0.07
     dementia
    -0.07
    -0.07
     lohnt
    -0.07
     IBS
    -0.07
     Imagen
    -0.07
    iton
    -0.07
    POSITIVE LOGITS
     compacto
    0.08
     trả
    0.08
     gebase
    0.08
    skem
    0.08
     tranquilo
    0.08
     koning
    0.08
     siku
    0.08
     Pg
    0.07
    Hidden
    0.07
     Tucker
    0.07
    Act Density 0.008%

    No Known Activations