INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    =b
    -0.08
     progressivement
    -0.08
    iniu
    -0.08
     anpil
    -0.07
     FOUNDATION
    -0.07
     centimeter
    -0.07
     lask
    -0.07
    -0.07
    čenja
    -0.07
     vän
    -0.07
    POSITIVE LOGITS
    报道称
    0.09
     titled
    0.09
     парень
    0.08
    [^
    0.08
    Phy
    0.08
     মতে
    0.08
    报道
    0.08
     zufolge
    0.08
     האם
    0.07
    0.07
    Act Density 0.140%

    No Known Activations