INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     FRA
    -0.06
     passion
    -0.06
    foreach
    -0.06
    bilir
    -0.06
    ПО
    -0.06
     часто
    -0.06
    _Com
    -0.06
     давно
    -0.06
                
    -0.06
    POSITIVE LOGITS
     dem
    0.07
    hum
    0.07
     تولید
    0.06
    ندر
    0.06
     md
    0.06
     predicts
    0.06
    ुमत
    0.06
    0.06
    .exec
    0.06
    ственного
    0.06
    Act Density 0.006%

    No Known Activations