INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ۳
    0.58
    ä
    0.57
    är
    0.52
     rozwiąz
    0.52
    اں
    0.50
    än
    0.50
    ül
    0.49
    мен
    0.49
    ના
    0.48
     psal
    0.46
    POSITIVE LOGITS
    ر
    0.67
    ك
    0.67
    ти
    0.66
    us
    0.64
    ad
    0.63
    is
    0.63
    no
    0.61
    ר
    0.61
    ла
    0.60
    at
    0.57
    Act Density 0.010%

    No Known Activations