INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     powied
    1.29
    IN
    1.27
    ج
    1.19
    ین
    1.15
    ק
    1.13
     destac
    1.10
    ینگ
    1.09
    ்ப
    1.06
    ap
    1.05
    ED
    1.05
    POSITIVE LOGITS
    ри
    1.73
     in
    1.68
    1.38
    }
    1.30
     for
    1.24
     در
    1.19
    )
    1.14
    1.12
    知道
    1.09
    ről
    1.06
    Act Density 0.076%

    No Known Activations