Trie للمتوسط: autocomplete في 80 ميكروثانية على 5M كلمة

المستوى: متوسط — يفترض إنك فاهم Hash Maps والـ Big O الأساسي، وقريت كود Python قبل كده.

لو search box عندك بيستعلم على PostgreSQL بـ LIKE 'pro%' على جدول 5 ملايين كلمة، الـ query بياخد 820 مللي ثانية. Trie في الذاكرة بينزّل نفس البحث لـ 78 ميكروثانية. ده 10500x أسرع، ومش محتاج Redis ولا ElasticSearch.

شاشة لابتوب تعرض شريط بحث مفتوح بقائمة اقتراحات autocomplete متعددة بترتيب الأكثر استخدامًا

Trie: الـ Data Structure اللي وراء autocomplete في كل مكان

المشكلة باختصار

كل مرة بتكتب حرف في Google Search، Amazon، أو في autocomplete بتاع VS Code، الاقتراحات بتظهر في أقل من 100 ميكروثانية. لو السيستم بيدوّر خطّيًا في 50 مليون كلمة في كل ضغطة keystroke، ده مستحيل فيزيائيًا. اللي بيحصل فعلاً إن في Data Structure اسمها Trie (تنطق "تراي") بتعمل البحث بطول الكلمة، مش حجم القاموس.

الفرق هنا جوهري: Hash Map بيلاقي مفتاح كامل في O(1). Trie بيلاقي كل المفاتيح اللي بتبدأ بـ prefix معيّن في O(L) حيث L طول الـ prefix. ده اللي بيخلّي autocomplete ممكن أصلاً.

مثال للمبتدئ: خزانة الكروت في المكتبة

تخيّل عندك خزانة فيها 5 ملايين كرت، كل كرت عليه كلمة. لو حد سألك: "إيه الكلمات اللي بتبدأ بـ pro؟"، أمامك خياران:

تفتّش الـ 5 ملايين كرت كرت كرت. ده ممكن ياخد ساعتين، ومستحيل في مللي ثانية.
تنظّم الخزانة قبل كده. درج لكل حرف أول، جوّاه درج فرعي لكل حرف ثاني، وهكذا. لما حد يقول "pro"، بتفتح درج P، جوّاه درج R، جوّاه درج O، وهتلاقي كل اللي بيبدأ بـ "pro" مجمّعين في مكان واحد.

الخيار الثاني ده بالظبط Trie. كل عقدة في الشجرة بتمثّل حرف، والمسار من الجذر للورقة بيمثّل كلمة كاملة. الكلمات اللي بتشترك في prefix بتشترك في نفس المسار من البداية.

التعريف العلمي الدقيق

Trie (الاسم مأخوذ من كلمة retrieval، صاغها Edward Fredkin سنة 1960) هي شجرة جذرية (rooted tree) كل عقدة فيها بتخزّن:

children map: خريطة من حرف لعقدة ابنة. غالبًا dict في Python أو HashMap في Java.
is_end flag: علم منطقي بيقول إن العقدة دي نهاية كلمة صحيحة. ده مهم لأن "car" و "card" بيشتركوا في 3 حروف، ولازم نميّز نهاية كل واحدة.
payload اختياري: قيمة مرتبطة بالكلمة (تكرار الاستخدام، priority، ID المنتج، إلخ).

التعقيد الزمني للبحث: O(L) حيث L طول الكلمة، مش O(N) حيث N حجم القاموس. ده بيخلّي البحث ثابت تقريبًا حتى لو القاموس كبر من مليون لمليار، طول ما طول الكلمات نفسها مش بيتغيّر.

رسم لشجرة متفرعة بحروف على كل عقدة تمثل بنية بيانات Trie لتخزين الكلمات بترتيب prefix

Implementation شغّال على Python 3.12

]]>

Trie للمستوى المتوسط: ازاي autocomplete بيلاقي اقتراح من 5 ملايين كلمة في 80 ميكروثانية

Trie: الـ Data Structure اللي وراء autocomplete في كل مكان

المشكلة باختصار

مثال للمبتدئ: خزانة الكروت في المكتبة

التعريف العلمي الدقيق

Implementation شغّال على Python 3.12

هل استفدت من المقال؟

أرقام مقاسة فعليًا

متى تستخدم Trie ومتى لا تستخدمه

4 استخدامات حقيقية في production

trade-offs صريحة

متى لا تستخدم Trie

فخ شائع: استهلاك الذاكرة الخفي

الخطوة التالية

المصادر