INDEX
    Explanations

    Code/programming

    New Auto-Interp
    Negative Logits
    -derived
    -0.08
    phil
    -0.06
     UD
    -0.06
    (hidden
    -0.06
    MH
    -0.06
     Nx
    -0.06
     ім
    -0.06
     LRV
    -0.06
    引き
    -0.06
     vl
    -0.06
    POSITIVE LOGITS
     zelf
    0.07
     下午
    0.07
    istra
    0.07
    .regex
    0.07
    Strange
    0.07
    acağ
    0.07
    entlich
    0.07
     slight
    0.06
    .News
    0.06
     beginnings
    0.06
    Act Density 0.015%

    No Known Activations