INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     برای
    0.54
     dla
    0.52
    برای
    0.52
     براي
    0.49
     для
    0.47
     עבור
    0.47
     জন্য
    0.47
    für
    0.46
    க்காக
    0.45
    Чтобы
    0.45
    POSITIVE LOGITS
     zur
    2.59
     towards
    1.79
     към
    1.79
    Zur
    1.79
    zur
    1.78
     Zur
    1.75
     Towards
    1.60
    towards
    1.55
    1.54
     toward
    1.45
    Act Density 0.001%

    No Known Activations