INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Zum
    -0.07
     circumference
    -0.07
     blunt
    -0.06
    est
    -0.06
     Wit
    -0.06
    _stub
    -0.06
    Attendance
    -0.06
    .Project
    -0.06
    voy
    -0.06
     frm
    -0.06
    POSITIVE LOGITS
    INTERFACE
    0.07
     TW
    0.07
     αν
    0.06
     pár
    0.06
    lien
    0.06
     ^
    0.06
     carry
    0.06
    alian
    0.06
     λ
    0.06
    0.06
    Act Density 0.004%

    No Known Activations