INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     télévision
    -0.09
     менее
    -0.08
     Holocaust
    -0.08
     tandis
    -0.08
     взгля
    -0.08
     rechtstreeks
    -0.08
     affection
    -0.08
     hatch
    -0.08
    -0.08
    kolog
    -0.08
    POSITIVE LOGITS
    .output
    0.08
    591
    0.08
     juros
    0.07
    cel
    0.07
    960
    0.07
    854
    0.07
    -output
    0.07
     intermediary
    0.07
    911
    0.07
    433
    0.07
    Act Density 0.018%

    No Known Activations