INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     позвол
    -0.08
    iter
    -0.07
    _receipt
    -0.07
     conspic
    -0.07
     laisse
    -0.07
    落ち着
    -0.07
     antioxid
    -0.06
    也算是
    -0.06
    isure
    -0.06
    一脚
    -0.06
    POSITIVE LOGITS
    elleicht
    0.08
    设想
    0.08
    Friends
    0.07
     traits
    0.07
    stations
    0.07
    Val
    0.07
    oration
    0.07
     BG
    0.07
    шки
    0.07
     Goals
    0.07
    Act Density 0.060%

    No Known Activations