INDEX
    Explanations

    punctuation

    New Auto-Interp
    Negative Logits
    -0.07
     demasi
    -0.07
    rotein
    -0.07
    inh
    -0.06
     зміни
    -0.06
    anti
    -0.06
    ^\
    -0.06
     strs
    -0.06
     premiums
    -0.06
    view
    -0.06
    POSITIVE LOGITS
    -coordinate
    0.07
     допом
    0.06
     Kun
    0.06
    温度
    0.06
     clo
    0.06
    博士
    0.06
     brewed
    0.06
     Documentary
    0.06
    _Variable
    0.06
     زیر
    0.06
    Act Density 0.002%

    No Known Activations