INDEX
    Explanations

    list table directory labels

    New Auto-Interp
    Negative Logits
    bertson
    0.57
    Aprend
    0.55
    Wat
    0.54
    Imagen
    0.53
    Warum
    0.53
     Aprend
    0.53
    𝙩
    0.52
    vict
    0.51
    Bes
    0.51
    Mo
    0.50
    POSITIVE LOGITS
     unix
    0.50
     või
    0.49
     concise
    0.48
     secretive
    0.48
    ない
    0.47
     scent
    0.47
     fat
    0.46
     libido
    0.45
     stench
    0.45
     verifiable
    0.45
    Act Density 0.000%

    No Known Activations