INDEX
    Explanations

    same, identical, similar, consistent

    New Auto-Interp
    Negative Logits
     active
    0.82
     aktif
    0.77
    Active
    0.75
     estimados
    0.75
     añadió
    0.74
     Active
    0.72
    active
    0.72
     dépasse
    0.71
    Der
    0.69
     ativa
    0.68
    POSITIVE LOGITS
    相同的
    1.46
     identical
    1.44
    共通
    1.27
    identical
    1.20
     similarities
    1.20
     одина
    1.19
    同一
    1.18
     uniform
    1.17
     same
    1.17
    相同
    1.16
    Act Density 1.738%

    No Known Activations