INDEX
    Explanations

    which, которая, która

    New Auto-Interp
    Negative Logits
     himself
    1.98
     केली
    1.69
     который
    1.62
     який
    1.61
     ktorý
    1.58
     koji
    1.57
     který
    1.51
     his
    1.51
     झाली
    1.50
     който
    1.49
    POSITIVE LOGITS
     која
    2.14
     koja
    1.99
     która
    1.90
     ktorá
    1.87
     которая
    1.85
     която
    1.83
     такая
    1.78
     была
    1.76
     должна
    1.72
     která
    1.72
    Act Density 0.089%

    No Known Activations