INDEX
    Explanations

    equality/rights

    New Auto-Interp
    Negative Logits
    Whatever
    -0.08
    		↵	↵
    -0.07
     While
    -0.07
    While
    -0.07
    ροφορίες
    -0.07
    PROTO
    -0.06
    -0.06
    Под
    -0.06
    ьогод
    -0.06
    '))↵↵↵
    -0.06
    POSITIVE LOGITS
     seq
    0.07
     diffusion
    0.07
    cream
    0.06
     horror
    0.06
     murm
    0.06
    course
    0.06
     interfer
    0.06
     bargaining
    0.06
    eshire
    0.06
    ιο
    0.06
    Act Density 0.014%

    No Known Activations