INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    :
    0.49
     nejen
    0.46
    ждый
    0.42
    ที่เรา
    0.42
    ByDefault
    0.42
     этом
    0.41
     
    0.41
     bringt
    0.41
     einzigen
    0.40
    ՝
    0.40
    POSITIVE LOGITS
    或其他
    0.55
     وغیرہ
    0.55
    0.54
    または
    0.54
     or
    0.53
    などの
    0.51
    or
    0.49
    したり
    0.48
     ஆகியவை
    0.48
     ইত্যাদি
    0.47
    Act Density 0.003%

    No Known Activations