INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    كان
    0.47
    ח
    0.45
    0.45
    สามารถ
    0.44
    이는
    0.42
    มี
    0.42
    으로
    0.42
    א
    0.42
    0.42
    ১০
    0.41
    POSITIVE LOGITS
     Ad
    1.13
    Ad
    1.11
     ad
    0.95
     AD
    0.94
     ад
    0.79
     アド
    0.75
     Ад
    0.74
    アド
    0.71
     الاد
    0.66
     एड
    0.65
    Act Density 0.033%

    No Known Activations