INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    {
    0.37
    ב
    0.35
    ה
    0.33
    ד
    0.33
    ט
    0.29
    ت
    0.28
    لومات
    0.28
    0.28
    חד
    0.28
    ם
    0.27
    POSITIVE LOGITS
     restaurants
    0.27
     from
    0.27
     शॉपिंग
    0.27
     museums
    0.25
     memang
    0.25
    ik
    0.25
     restaurant
    0.25
    ellia
    0.25
    ir
    0.24
    ified
    0.24
    Act Density 0.262%

    No Known Activations