INDEX
    Explanations

    colors and conjunctions

    New Auto-Interp
    Negative Logits
     інших
    0.38
     других
    0.35
     প্রশ্ন
    0.34
     éstos
    0.34
    𒉌
    0.34
     জন্ম
    0.34
     réellement
    0.33
     olmadığını
    0.33
     আগেও
    0.32
     экономических
    0.31
    POSITIVE LOGITS
     עם
    0.68
     with
    0.67
     avec
    0.60
     dengan
    0.59
     आणि
    0.57
    with
    0.57
     અને
    0.55
     και
    0.54
     और
    0.54
     ਅਤੇ
    0.54
    Act Density 0.305%

    No Known Activations