INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ج
    0.80
     
    0.75
    <0x0D>
    0.73
    ك
    0.73
    ش
    0.71
    кту
    0.68
     \
    0.59
    y
    0.59
    م
    0.59
     Vielleicht
    0.59
    POSITIVE LOGITS
    0.81
    _
    0.72
    0.71
    ır
    0.71
     که
    0.69
    ه‌های
    0.68
    すぎる
    0.67
     berjudul
    0.66
    sey
    0.65
     dobrze
    0.65
    Act Density 0.060%

    No Known Activations