INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     and
    0.89
     и
    0.82
     this
    0.78
     
    0.70
     και
    0.69
     і
    0.69
    0.68
    और
    0.65
     और
    0.64
     the
    0.62
    POSITIVE LOGITS
    కుంటు
    0.55
     mérite
    0.51
    ೋಗ್ಯ
    0.50
    ittä
    0.49
    зывают
    0.49
    အတူ
    0.49
     SHOULD
    0.49
     Therefore
    0.48
     Portanto
    0.48
     इम्मेडिएटली
    0.48
    Act Density 0.004%

    No Known Activations