INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ok
    -0.08
    -0.07
    iltro
    -0.07
    游击
    -0.07
    どれ
    -0.07
    +w
    -0.07
    -0.07
     מאוד
    -0.06
     largest
    -0.06
    竞价
    -0.06
    POSITIVE LOGITS
     примен
    0.07
    Ne
    0.07
     Perc
    0.07
     перед
    0.07
    phen
    0.07
    في
    0.07
     метал
    0.07
    erals
    0.06
     Shrine
    0.06
    _PER
    0.06
    Act Density 0.001%

    No Known Activations