INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ק
    0.80
    ل
    0.77
    ف
    0.76
    0.75
    X
    0.71
    л
    0.70
    G
    0.65
    ین
    0.64
    K
    0.64
    ל
    0.64
    POSITIVE LOGITS
     I
    0.73
    .
    0.66
    -
    0.58
    ۔
    0.56
    ния
    0.55
    0.52
    t
    0.52
    発生
    0.51
    jär
    0.51
    itting
    0.50
    Act Density 0.197%

    No Known Activations