INDEX
    Explanations

    preference, liking, or choosing

    New Auto-Interp
    Negative Logits
     causando
    0.43
    により
    0.41
    这将
    0.40
     approx
    0.39
    じた
    0.39
    objectId
    0.38
    ioid
    0.37
    は約
    0.37
     により
    0.37
     થશે
    0.37
    POSITIVE LOGITS
     предпочита
    0.95
    が好き
    0.86
     prefer
    0.84
     personally
    0.83
     люблю
    0.81
     préférence
    0.81
     Personally
    0.80
     preferring
    0.80
     Prefer
    0.80
    Personally
    0.79
    Act Density 0.012%

    No Known Activations