INDEX
    Explanations

    alteration or modification

    New Auto-Interp
    Negative Logits
     róż
    0.39
     supplémentaire
    0.39
     ልዩ
    0.37
     اقدامات
    0.36
     дополнительных
    0.36
     keuze
    0.35
    ণ্ট
    0.35
     revival
    0.35
    ŵ
    0.35
    ycl
    0.34
    POSITIVE LOGITS
    改变
    0.76
     changing
    0.75
     Change
    0.74
    เปลี่ยน
    0.72
     cambia
    0.72
     Changing
    0.72
    Changing
    0.72
    改變
    0.72
    Change
    0.71
    changing
    0.70
    Act Density 0.049%

    No Known Activations