INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    i
    0.82
     on
    0.80
    are
    0.79
    ۔
    0.78
    arang
    0.73
     منظ
    0.73
     жы
    0.71
    OTAL
    0.71
     חי
    0.70
     нови
    0.68
    POSITIVE LOGITS
    ى
    1.09
    0.90
    0.79
    ون
    0.76
    ות
    0.75
    ல்
    0.75
    ться
    0.74
    ή
    0.72
    ha
    0.71
    у
    0.68
    Act Density 0.002%

    No Known Activations