INDEX
    Explanations

    avoiding/limiting/reducing followed by 'this'/'these'

    New Auto-Interp
    Negative Logits
    രാണ്
    0.47
    वैसे
    0.46
    romeda
    0.42
    ujuan
    0.39
     現在
    0.38
    merzen
    0.37
    urta
    0.36
    지금
    0.36
     данным
    0.36
     Este
    0.36
    POSITIVE LOGITS
     ذلك
    1.27
    这一点
    1.25
    这点
    1.14
    这种
    1.06
    这种情况
    1.06
     đó
    1.02
    這種
    1.00
     이러한
    0.97
     això
    0.95
     isso
    0.95
    Act Density 0.010%

    No Known Activations