INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     express
    -0.07
     seller
    -0.07
    -Cola
    -0.06
    _square
    -0.06
     Watch
    -0.06
     reducer
    -0.06
    -*-
    -0.06
     describes
    -0.06
    ‌کنندگان
    -0.06
    -go
    -0.06
    POSITIVE LOGITS
     stav
    0.07
    avery
    0.07
     ضر
    0.06
    ком
    0.06
    şa
    0.06
     вик
    0.06
    0.06
    afia
    0.06
     Viking
    0.06
    _TEMP
    0.06
    Act Density 0.009%

    No Known Activations