INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <unused506>
    0.52
    <unused284>
    0.52
    formulas
    0.51
    0.51
    <unused1799>
    0.50
     rétrécies
    0.50
    <unused1748>
    0.50
    <unused2018>
    0.50
    <unused215>
    0.50
    <unused292>
    0.49
    POSITIVE LOGITS
    por
    0.55
     or
    0.52
    pon
    0.48
    v
    0.48
    合作
    0.46
    man
    0.45
    ک
    0.45
     OR
    0.44
    Por
    0.44
    ع
    0.44
    Act Density 0.007%

    No Known Activations