INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    та
    2.16
    ע
    2.16
    ح
    2.09
    ت
    1.99
    ות
    1.98
    1.92
    ת
    1.88
    ח
    1.87
    ר
    1.81
    ير
    1.77
    POSITIVE LOGITS
    2.11
    데요
    2.03
    не
    2.02
    ne
    1.91
    های
    1.87
    こと
    1.84
     vervolgens
    1.81
    те
    1.63
    streets
    1.62
    $)$.
    1.59
    Act Density 0.046%

    No Known Activations