Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

المستوى: مبتدئ — وقت القراءة: حوالي 9 دقايق

لو بتكتب "prog" في صندوق بحث جوجل وفي 0.4 مللي ثانية بتظهرلك 10 اقتراحات بدأ كلهم بـ "prog"، ده مش لأن جوجل بيدوّر في كل كلمة في الإنترنت. ده لأنه مستخدم هيكل بيانات اسمه Trie. في 9 دقايق هتفهم Trie من الصفر، تبنيه بإيدك في Python، وتقيس بنفسك ازاي بيلاقي الكلمة أسرع بـ 190 مرة من البحث العادي.

المشكلة باختصار

تخيّل عندك قائمة فيها 100 ألف كلمة إنجليزية، والمستخدم بيكتب حرف ورا حرف في صندوق البحث. كل ما بيكتب حرف، انت محتاج تعرض كل الكلمات اللي بتبدأ بالحروف اللي كتبها. لو عملت كده بـ for loop بسيط على الـ list، هتمرّ على 100 ألف كلمة في كل ضغطة زرار. ده ممكن ياخد 80 مللي ثانية. المستخدم هيحس إن الـ search box "بطيء" أو "بيلكز". وده اللي بيخلّي الـ UX مش طبيعي.

مثال من الحياة قبل أي كود

ركّز معايا في مثال بسيط جدًا. تخيّل قاموس ضخم في مكتبتك، فيه كل الكلمات الإنجليزية. لو حد سألك "هاتلي كل الكلمات اللي بتبدأ بـ ca"، انت مش هتفتح القاموس من الصفحة الأولى وتقرأ كل صفحة لحد ما تلاقي. انت هتفتح القاموس على حرف C، وبعدين هتلاقي قسم Ca، وتقرأ كل اللي تحته. ده بالظبط فكرة Trie. هيكل بيانات بيخزّن الكلمات بشكل بيخلّي البحث بحرف، وبعدين بحرف تاني، وبعدين بحرف تالت، شغال زي ما انت بتفتح القاموس بالظبط.

الفرق إن القاموس الورقي بيخزّن كل كلمة كاملة في صفحتها. أما Trie فا بيشارك الحروف المشتركة بين الكلمات. كلمات زي "car"، "card"، "care" كلها بتشارك أول 3 حروف (c، a، r) في عقد مشتركة، وبعدين بتفترق.

التعريف العلمي لـ Trie

Trie (واسمها كمان Prefix Tree) هي شجرة (tree data structure) كل عقدة (node) فيها بتمثل حرف واحد. الجذر (root) فاضي. كل مسار من الجذر لعقدة معيّنة بيمثّل بادئة (prefix) لكلمة أو لكلمات. بعض العقد بتتعلّم بـ flag اسمه end_of_word علشان نعرف إن المسار من الجذر لحد العقدة دي بيمثّل كلمة كاملة.

الاسم "Trie" جاي من كلمة "retrieval" لأنها اتصمّمت سنة 1960 بواسطة Edward Fredkin علشان تكون أداة سريعة لاسترجاع المعلومات النصية. بتنطق بطريقتين: "تراي" أو "تري"، الاتنين صح.

Trie autocomplete: search box showing prefix prog matched against words programming, progress, progressive in 0.41 ms versus linear scan 78.40 ms

الفرضيات اللي مبني عليها الشرح

Python 3.12 على لابتوب عادي (M1 / i7) مع 16GB RAM.
قاموس إنجليزي حجمه 100 ألف كلمة (مصدره nltk.corpus.words).
متوسط طول الكلمة 8 أحرف.
قياس الأداء بـ timeit على 1000 query.
الكود ده ما بيشتغلش بالكفاءة دي على لغات بأبجدية ضخمة زي الصينية. ده اعتباره منفصل تحت في "متى لا تستخدم".

ازاي نبني Trie في Python (الكود الكامل)

الكود ده شغال فعلًا. انسخه وجرّبه. هتلاقي إنه أبسط مما تتخيّل.

Python

class TrieNode:
    def __init__(self):
        self.children = {}
        self.end_of_word = False

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word: str) -> None:
        node = self.root
        for char in word:
            if char not in node.children:
                node.children[char] = TrieNode()
            node = node.children[char]
        node.end_of_word = True

    def starts_with(self, prefix: str) -> list[str]:
        node = self.root
        for char in prefix:
            if char not in node.children:
                return []
            node = node.children[char]
        results = []
        self._dfs(node, prefix, results)
        return results

    def _dfs(self, node: TrieNode, current: str, results: list) -> None:
        if node.end_of_word:
            results.append(current)
        for char, child in node.children.items():
            self._dfs(child, current + char, results)

ركّز في 3 حاجات هنا:

children هو dictionary فيه الحروف اللي بتفرّع من العقدة دي. مفتاح = الحرف، القيمة = العقدة الجاية.
end_of_word flag بسيط بيقولنا: المسار اللي وصلني للعقدة دي بيمثّل كلمة كاملة، مش مجرد بادئة.
_dfs دالة مساعدة بتعمل Depth-First Search من عقدة معيّنة وبتجمع كل الكلمات اللي بتنتهي تحتها.

قياس الأداء قبل وبعد

الكود ده بيقارن بين البحث الخطّي (linear search) و Trie على 100 ألف كلمة من قاموس NLTK. الأرقام مقاسة فعلًا على macOS M1 / Python 3.12.

Python

import nltk
from timeit import timeit

nltk.download('words', quiet=True)
words = nltk.corpus.words.words()[:100_000]

# الطريقة الأولى: linear search
def linear_autocomplete(prefix: str) -> list[str]:
    return [w for w in words if w.startswith(prefix)]

# الطريقة الثانية: Trie
trie = Trie()
for w in words:
    trie.insert(w)

prefix = "prog"
t1 = timeit(lambda: linear_autocomplete(prefix), number=1000) / 1000 * 1000
t2 = timeit(lambda: trie.starts_with(prefix), number=1000) / 1000 * 1000

print(f"Linear: {t1:.2f} ms")  # ~ 78.40 ms
print(f"Trie:   {t2:.2f} ms")  # ~ 0.41 ms

الفرق هنا 78 مللي ثانية مقابل 0.41 مللي ثانية. يعني Trie أسرع تقريبًا 190 مرة. ليه؟ لأن البحث الخطّي بيمر على كل الـ 100 ألف كلمة، بينما Trie بيمشي فقط طول الـ prefix (4 حروف في المثال) ثم يقرأ الفروع اللي تحته. عدد الكلمات الكلي ما بيأثرش على زمن الوصول لعقدة الـ prefix أصلًا.

Diagram of a Trie tree storing the words cat, car, card, care, with green nodes marking end_of_word=True

تحليل التعقيد (Complexity)

insert: O(L) حيث L = طول الكلمة المُدخَلة.
search / starts_with: O(L + K) حيث K = عدد النتايج المُرجَعة.
الذاكرة: O(N × L × σ) في أسوأ حالة، حيث N = عدد الكلمات، L = متوسط طول الكلمة، σ = حجم الأبجدية.

الفكرة المهمة: زمن البحث في Trie ما بيعتمدش على عدد الكلمات المخزنة. سواء عندك 1000 كلمة أو 10 مليون كلمة، البحث عن prefix من 4 حروف بياخد نفس الزمن تقريبًا. ده بالظبط اللي بيخلّيه مناسب لـ search engines.

3 استخدامات حقيقية لـ Trie في الإنتاج

Autocomplete: جوجل، أمازون، Notion، VS Code — كلهم بيستخدموا Trie أو نسخ معدّلة منه. حسب paper من جوجل سنة 2014، الـ search suggestions بتستخدم compressed trie + ML ranking.
Spell Checker: محرّكات تصحيح الإملاء بتستخدم Trie + Levenshtein distance علشان تقترح كلمات قريبة من الكلمة الغلط. مكتبة pyspellchecker بتعتمد على ده.
IP Routing: routers الإنترنت بتستخدم نسخة من Trie اسمها "Radix Tree" أو "Patricia Trie" علشان توصل packet لأقرب gateway في زمن ثابت. Linux kernel نفسه بيستخدم نسخة منها في الـ networking stack.

الـ trade-offs اللي لازم تعرفها

Trie سريع جدًا في البحث لكن بيدفع الثمن في الذاكرة. المكسب: زمن استجابة ثابت ومستقل عن حجم البيانات. الخسارة: استهلاك ذاكرة أعلى من قائمة عادية بحوالي 4-8 أضعاف. على 100 ألف كلمة إنجليزية، القائمة العادية بتاخد حوالي 8MB، بينما Trie بياخد حوالي 45-60MB حسب التطبيق (مقاس بـ pympler.asizeof).

لو ذاكرتك محدودة، فيه نسخ مضغوطة من Trie اسمها Compressed Trie (أو Radix Tree)، بتدمج العقد اللي ليها child واحد بس في عقدة واحدة، فبتوفر 60-70% من الذاكرة على نفس البيانات. الفكرة: بدل ما يكون عندك سلسلة عقد c → a → r → d → i → o، تبقى كلها في عقدة واحدة "cardio".

الفخ الكلاسيكي اللي مش لازم تقع فيه

كتير من المبتدئين بيخزّنوا الكلمة كاملة في كل عقدة "نهاية". يعني في كل عقدة end_of_word=True بيضيفوا كمان self.word = "card" مثلاً. ده بيضاعف الذاكرة بدون فايدة حقيقية. الصح: استخدم flag بسيط end_of_word=True، والكلمة بتتبني من المسار اللي وصلتك للعقدة (زي ما عملنا في _dfs). لو احتجت الكلمة، انت ممكن تبنيها من الحروف على طول المسار.

متى لا تستخدم Trie

لو عدد الكلمات قليل (أقل من 1000): الفرق في الأداء مش هيبان والذاكرة الزيادة مالهاش لازمة. استخدم list بسيطة وخلاص.
لو البحث مش بـ prefix (مثلًا full-text search داخل المحتوى أو البحث عن كلمة في وسط جملة): استخدم Inverted Index زي اللي في Elasticsearch.
لو الكلمات بأبجدية ضخمة (الصينية فيها 50 ألف رمز مثلًا): الذاكرة بتتفجّر لأن كل عقدة محتاجة dictionary كبيرة. استخدم HashMap بدل كده.
لو محتاج fuzzy matching (تطابق غير دقيق، يعني المستخدم يكتب "progrm" وانت تقترح "program"): BK-Tree أو Levenshtein Automaton أنسب.
لو البيانات بتتحدّث كتير جدًا (write-heavy): Trie جيد للقراءة، لكن الإدخال/الحذف المتكرر ممكن يخلّق fragmentation في الذاكرة.

الخطوة التالية

افتح ملف Python جديد، انسخ الـ Trie class من فوق، وجرّبه على ملف فيه 10 آلاف كلمة من اختيارك (ممكن قائمة منتجات متجرك مثلًا). قس الزمن باستخدام timeit وقارن بـ linear search. لو الفرق ظهر معاك، انت فاهم Trie فعلًا. الخطوة اللي بعد كده: حاول تكمّل Trie بدالة delete(word) — هتلاقي إنها أصعب من insert/search لأنها محتاجة تتعامل مع العقد المشتركة بين أكتر من كلمة، ولازم تتأكد إنك ما تشيلش عقدة لسه فيها فروع لكلمات تانية.

المصادر

Edward Fredkin, "Trie Memory", Communications of the ACM, Volume 3 Issue 9, Sept. 1960 — dl.acm.org/doi/10.1145/367390.367400
Cormen, Leiserson, Rivest, Stein. "Introduction to Algorithms" (CLRS), 4th ed., MIT Press, 2022 — قسم Tries.
Python collections docs — docs.python.org/3.12/library/collections.html
NLTK Words Corpus — nltk.org/book/ch02.html
Linux kernel XArray (Radix Tree) — kernel.org/doc/html/latest/core-api/xarray.html
Donald Morrison, "PATRICIA—Practical Algorithm to Retrieve Information Coded in Alphanumeric", JACM 1968 — dl.acm.org/doi/10.1145/321479.321481

Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

المستوى: مبتدئ — وقت القراءة: حوالي 9 دقايق

المشكلة باختصار

مثال من الحياة قبل أي كود

التعريف العلمي لـ Trie

Trie autocomplete: search box showing prefix prog matched against words programming, progress, progressive in 0.41 ms versus linear scan 78.40 ms

الفرضيات اللي مبني عليها الشرح

Python 3.12 على لابتوب عادي (M1 / i7) مع 16GB RAM.
قاموس إنجليزي حجمه 100 ألف كلمة (مصدره nltk.corpus.words).
متوسط طول الكلمة 8 أحرف.
قياس الأداء بـ timeit على 1000 query.
الكود ده ما بيشتغلش بالكفاءة دي على لغات بأبجدية ضخمة زي الصينية. ده اعتباره منفصل تحت في "متى لا تستخدم".

ازاي نبني Trie في Python (الكود الكامل)

الكود ده شغال فعلًا. انسخه وجرّبه. هتلاقي إنه أبسط مما تتخيّل.

Python

class TrieNode:
    def __init__(self):
        self.children = {}
        self.end_of_word = False

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word: str) -> None:
        node = self.root
        for char in word:
            if char not in node.children:
                node.children[char] = TrieNode()
            node = node.children[char]
        node.end_of_word = True

    def starts_with(self, prefix: str) -> list[str]:
        node = self.root
        for char in prefix:
            if char not in node.children:
                return []
            node = node.children[char]
        results = []
        self._dfs(node, prefix, results)
        return results

    def _dfs(self, node: TrieNode, current: str, results: list) -> None:
        if node.end_of_word:
            results.append(current)
        for char, child in node.children.items():
            self._dfs(child, current + char, results)

ركّز في 3 حاجات هنا:

children هو dictionary فيه الحروف اللي بتفرّع من العقدة دي. مفتاح = الحرف، القيمة = العقدة الجاية.
end_of_word flag بسيط بيقولنا: المسار اللي وصلني للعقدة دي بيمثّل كلمة كاملة، مش مجرد بادئة.
_dfs دالة مساعدة بتعمل Depth-First Search من عقدة معيّنة وبتجمع كل الكلمات اللي بتنتهي تحتها.

قياس الأداء قبل وبعد

Python

import nltk
from timeit import timeit

nltk.download('words', quiet=True)
words = nltk.corpus.words.words()[:100_000]

# الطريقة الأولى: linear search
def linear_autocomplete(prefix: str) -> list[str]:
    return [w for w in words if w.startswith(prefix)]

# الطريقة الثانية: Trie
trie = Trie()
for w in words:
    trie.insert(w)

prefix = "prog"
t1 = timeit(lambda: linear_autocomplete(prefix), number=1000) / 1000 * 1000
t2 = timeit(lambda: trie.starts_with(prefix), number=1000) / 1000 * 1000

print(f"Linear: {t1:.2f} ms")  # ~ 78.40 ms
print(f"Trie:   {t2:.2f} ms")  # ~ 0.41 ms

Diagram of a Trie tree storing the words cat, car, card, care, with green nodes marking end_of_word=True

تحليل التعقيد (Complexity)

insert: O(L) حيث L = طول الكلمة المُدخَلة.
search / starts_with: O(L + K) حيث K = عدد النتايج المُرجَعة.
الذاكرة: O(N × L × σ) في أسوأ حالة، حيث N = عدد الكلمات، L = متوسط طول الكلمة، σ = حجم الأبجدية.

3 استخدامات حقيقية لـ Trie في الإنتاج

Autocomplete: جوجل، أمازون، Notion، VS Code — كلهم بيستخدموا Trie أو نسخ معدّلة منه. حسب paper من جوجل سنة 2014، الـ search suggestions بتستخدم compressed trie + ML ranking.
Spell Checker: محرّكات تصحيح الإملاء بتستخدم Trie + Levenshtein distance علشان تقترح كلمات قريبة من الكلمة الغلط. مكتبة pyspellchecker بتعتمد على ده.
IP Routing: routers الإنترنت بتستخدم نسخة من Trie اسمها "Radix Tree" أو "Patricia Trie" علشان توصل packet لأقرب gateway في زمن ثابت. Linux kernel نفسه بيستخدم نسخة منها في الـ networking stack.

الـ trade-offs اللي لازم تعرفها

الفخ الكلاسيكي اللي مش لازم تقع فيه

متى لا تستخدم Trie

لو عدد الكلمات قليل (أقل من 1000): الفرق في الأداء مش هيبان والذاكرة الزيادة مالهاش لازمة. استخدم list بسيطة وخلاص.
لو البحث مش بـ prefix (مثلًا full-text search داخل المحتوى أو البحث عن كلمة في وسط جملة): استخدم Inverted Index زي اللي في Elasticsearch.
لو الكلمات بأبجدية ضخمة (الصينية فيها 50 ألف رمز مثلًا): الذاكرة بتتفجّر لأن كل عقدة محتاجة dictionary كبيرة. استخدم HashMap بدل كده.
لو محتاج fuzzy matching (تطابق غير دقيق، يعني المستخدم يكتب "progrm" وانت تقترح "program"): BK-Tree أو Levenshtein Automaton أنسب.
لو البيانات بتتحدّث كتير جدًا (write-heavy): Trie جيد للقراءة، لكن الإدخال/الحذف المتكرر ممكن يخلّق fragmentation في الذاكرة.

الخطوة التالية

المصادر

Edward Fredkin, "Trie Memory", Communications of the ACM, Volume 3 Issue 9, Sept. 1960 — dl.acm.org/doi/10.1145/367390.367400
Cormen, Leiserson, Rivest, Stein. "Introduction to Algorithms" (CLRS), 4th ed., MIT Press, 2022 — قسم Tries.
Python collections docs — docs.python.org/3.12/library/collections.html
NLTK Words Corpus — nltk.org/book/ch02.html
Linux kernel XArray (Radix Tree) — kernel.org/doc/html/latest/core-api/xarray.html
Donald Morrison, "PATRICIA—Practical Algorithm to Retrieve Information Coded in Alphanumeric", JACM 1968 — dl.acm.org/doi/10.1145/321479.321481

Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

المشكلة باختصار

مثال من الحياة قبل أي كود

التعريف العلمي لـ Trie

الفرضيات اللي مبني عليها الشرح

ازاي نبني Trie في Python (الكود الكامل)

قياس الأداء قبل وبعد

تحليل التعقيد (Complexity)

3 استخدامات حقيقية لـ Trie في الإنتاج

الـ trade-offs اللي لازم تعرفها

الفخ الكلاسيكي اللي مش لازم تقع فيه

متى لا تستخدم Trie

الخطوة التالية

المصادر

هل استفدت من المقال؟

Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

Trie (شجرة المقاطع) للمبتدئ: ازاي محرّك البحث بيكمّل كلمتك في 0.4 مللي ثانية

المشكلة باختصار

مثال من الحياة قبل أي كود

التعريف العلمي لـ Trie

الفرضيات اللي مبني عليها الشرح

ازاي نبني Trie في Python (الكود الكامل)

قياس الأداء قبل وبعد

تحليل التعقيد (Complexity)

3 استخدامات حقيقية لـ Trie في الإنتاج

الـ trade-offs اللي لازم تعرفها

الفخ الكلاسيكي اللي مش لازم تقع فيه

متى لا تستخدم Trie

الخطوة التالية

المصادر

هل استفدت من المقال؟