INDEX
    Explanations

    then followed by action or state

    New Auto-Interp
    Negative Logits
    ح
    1.09
    ת
    1.03
    ע
    1.00
    1.00
    та
    0.99
    ą
    0.97
    т
    0.94
    ش
    0.93
    ן
    0.93
    д
    0.89
    POSITIVE LOGITS
    데요
    0.83
    ことにより
    0.78
    های
    0.75
     увиде
    0.73
    こと
    0.71
     sebagainya
    0.71
     Ее
    0.70
     причем
    0.69
    0.68
    <!--
    0.67
    Act Density 0.109%

    No Known Activations