INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    そして
    0.72
    그리고
    0.66
    无数
    0.65
    และการ
    0.65
     важней
    0.62
    ുമുള്ള
    0.59
    Plus
    0.58
    each
    0.58
    Each
    0.57
     каждой
    0.56
    POSITIVE LOGITS
     or
    1.48
     или
    1.39
     atau
    1.38
     ಅಥವಾ
    1.33
    หรือ
    1.26
    1.24
     या
    1.23
     hoặc
    1.22
     یا
    1.20
     veya
    1.19
    Act Density 0.487%

    No Known Activations