INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     вку
    -0.07
     Paste
    -0.07
     Sophie
    -0.06
     χω
    -0.06
    (map
    -0.06
     Πο
    -0.06
     Κά
    -0.06
    +E
    -0.06
     آیا
    -0.06
     Jake
    -0.06
    POSITIVE LOGITS
    Terminal
    0.10
    terminal
    0.09
     Terminal
    0.09
     terminal
    0.08
    ael
    0.08
    EL
    0.08
    AL
    0.07
    ον
    0.07
     Dual
    0.07
    el
    0.07
    Act Density 0.011%

    No Known Activations