INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    ει
    2.63
    та
    2.14
    ты
    2.11
    ι
    2.06
    ية
    2.02
    2.02
    те
    2.00
    ä
    1.95
    1.95
    ą
    1.93
    POSITIVE LOGITS
    س
    2.75
    سلم
    2.19
    een
    2.02
    and
    1.89
    ق
    1.80
    تج
    1.79
    تس
    1.78
    سل
    1.77
    ج
    1.77
    s
    1.72
    Act Density 0.089%

    No Known Activations