INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     '''↵
    -0.07
    Filter
    -0.07
    (Command
    -0.07
    LN
    -0.07
    .erase
    -0.07
     relative
    -0.07
    .readyState
    -0.06
    canf
    -0.06
    _COL
    -0.06
     ברשת
    -0.06
    POSITIVE LOGITS
    自分が
    0.07
    0.07
    noon
    0.06
     najwięks
    0.06
     upper
    0.06
    0.06
    losures
    0.06
    0.06
    ilm
    0.06
     nueva
    0.06
    Act Density 0.000%

    No Known Activations