INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     it
    1.02
    V
    0.98
    SE
    0.96
    AL
    0.89
     t
    0.88
    :
    0.88
    ありません
    0.86
    1
    0.85
    IN
    0.84
    )
    0.80
    POSITIVE LOGITS
    ي
    1.34
    i
    0.94
    يي
    0.86
     diarias
    0.85
    0.80
    ينا
    0.79
    ി
    0.79
    تي
    0.79
    توى
    0.78
    يها
    0.78
    Act Density 0.001%

    No Known Activations