INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    outfile
    -0.08
     mary
    -0.08
     مخالف
    -0.08
     无限
    -0.07
     fucking
    -0.07
     khả
    -0.07
    人成
    -0.07
    yage
    -0.07
    ánto
    -0.07
     löyt
    -0.07
    POSITIVE LOGITS
    说道
    0.14
    0.11
    :“
    0.10
    :「
    0.10
     বলেন
    0.10
    lias
    0.09
     berkata
    0.09
     പറഞ്ഞു
    0.09
     şöyle
    0.09
     म्हण
    0.09
    Act Density 0.082%

    No Known Activations