INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ів
    0.81
    lendi
    0.79
    بحث
    0.76
    0.74
     
    0.73
    क्स
    0.71
    ség
    0.70
    و
    0.70
    b
    0.69
    لان
    0.68
    POSITIVE LOGITS
    4
    1.05
     Embassy
    1.01
    0
    0.99
    5
    0.96
     embassy
    0.91
     Ambassador
    0.91
     embassies
    0.91
    8
    0.89
    ۰
    0.87
    ،
    0.86
    Act Density 0.001%

    No Known Activations