INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    חברתי
    -0.08
     taraf
    -0.07
    京都
    -0.07
    ская
    -0.07
    ton
    -0.07
    知乎
    -0.06
     california
    -0.06
     Cleveland
    -0.06
     absorbs
    -0.06
    isin
    -0.06
    POSITIVE LOGITS
    0.08
    ויד
    0.07
     distress
    0.07
     divisions
    0.07
     FOR
    0.07
    LENGTH
    0.07
    0.07
    写了
    0.07
     indexes
    0.07
    licable
    0.07
    Act Density 0.006%

    No Known Activations