INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     teş
    -0.07
    du
    -0.06
    .Raw
    -0.06
     troubling
    -0.06
     vistas
    -0.06
    -0.06
    =E
    -0.06
    ToSend
    -0.06
    という
    -0.06
     Theme
    -0.06
    POSITIVE LOGITS
    —you
    0.07
    ...,
    0.06
    —he
    0.06
    .char
    0.06
    —I
    0.06
     man
    0.06
     куп
    0.06
    resident
    0.06
    ……」↵↵
    0.06
     Boca
    0.06
    Act Density 0.095%

    No Known Activations