INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    pọ
    -0.08
    whole
    -0.07
    _without
    -0.07
    _when
    -0.07
    рони
    -0.07
    198
    -0.07
     inward
    -0.07
    beaut
    -0.07
     eater
    -0.07
     mistaken
    -0.07
    POSITIVE LOGITS
    -fer
    0.08
     ближай
    0.08
    附近
    0.08
     kettle
    0.08
     USP
    0.08
     solucion
    0.08
     redemption
    0.08
    -card
    0.07
     нуж
    0.07
    カード
    0.07
    Act Density 0.021%

    No Known Activations