INDEX
    Explanations

    as/виде

    New Auto-Interp
    Negative Logits
     나는
    -0.08
    why
    -0.08
    settings
    -0.08
    rometer
    -0.07
    Logic
    -0.07
     meanwhile
    -0.07
    나는
    -0.07
     impart
    -0.07
    stackoverflow
    -0.07
    -0.07
    POSITIVE LOGITS
     separate
    0.09
     самостоятель
    0.09
     связано
    0.09
     offene
    0.09
     полноцен
    0.09
     еди
    0.09
     AGM
    0.08
     Teil
    0.08
    合集
    0.08
     Mittelpunkt
    0.08
    Act Density 0.052%

    No Known Activations