INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .Double
    -0.07
    -funded
    -0.06
     Idle
    -0.06
    kc
    -0.06
     вну
    -0.06
    noch
    -0.06
     Друг
    -0.06
     secondo
    -0.06
     early
    -0.06
    anela
    -0.06
    POSITIVE LOGITS
     sociální
    0.07
    ”?
    0.07
    ylie
    0.07
     challenging
    0.07
     dynamic
    0.06
     heute
    0.06
     стрем
    0.06
    Stamped
    0.06
     Exists
    0.06
     happier
    0.06
    Act Density 0.009%

    No Known Activations