INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ים
    1.85
    ین
    1.51
    ן
    1.41
    1.38
    ות
    1.32
    1.31
    ית
    1.30
    ي
    1.29
    1.29
    1.27
    POSITIVE LOGITS
    -
    1.71
     
    1.48
    .
    1.23
    ag
    1.16
    ör
    1.04
    (
    1.03
    /
    1.03
    位置
    0.98
    使用
    0.97
    内容
    0.97
    Act Density 0.000%

    No Known Activations