INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     صارت
    0.47
    0.46
    าที
    0.46
     समझिए
    0.44
    0.42
    h
    0.42
     उपचुनाव
    0.41
    ామ
    0.40
    f
    0.40
    而来
    0.40
    POSITIVE LOGITS
     liking
    0.71
    不喜欢
    0.71
     dislikes
    0.67
     dislike
    0.63
     liked
    0.62
     पसंद
    0.60
     gosto
    0.59
     préférences
    0.54
    liked
    0.52
     нрав
    0.51
    Act Density 0.008%

    No Known Activations