INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.42
     wynik
    0.39
     lakini
    0.38
    看似
    0.38
     nhưng
    0.38
     ngunit
    0.38
     resembling
    0.38
     Still
    0.37
     morphology
    0.37
    但不
    0.37
    POSITIVE LOGITS
    致力于
    0.57
     encourages
    0.52
     justement
    0.49
     encour
    0.47
     recognizes
    0.47
     помочь
    0.47
     помога
    0.46
    经常
    0.46
    ช่วย
    0.45
     تاکید
    0.45
    Act Density 0.280%

    No Known Activations