المستوى المطلوب: مبتدئ

لو الـ search box في موقعك بياخد 80ms يكمل كلمة على قاموس فيه 100 ألف كلمة، المشكلة مش في السيرفر ولا في الـ CPU. المشكلة إنك بتدور سطر بسطر، والحل اسمه Trie. سطر واحد بيخلي الزمن دا ينزل لأقل من 1ms، حتى لو القاموس وصل لمليون كلمة.

Trie: الـ Data Structure اللي بتشغّل الـ Autocomplete

المشكلة باختصار

تخيّل عندك ليست فيها 100,000 كلمة، والمستخدم كاتب 3 حروف "برم". أنت عايز ترجّعله أول 10 كلمات بتبدأ بـ "برم". الطريقة الساذجة: لف على كل الكلمات وشوف اللي بيبدأ بالـ prefix دا. ده O(n)، وعلى 100K كلمة بياخد فعلياً 80–120ms في Python على لابتوب عادي. كل ما المستخدم يكتب حرف، السيرفر بيتحرق من الأول.

دفتر مفتوح يشبه القاموس مع فهرس حرفي يمثّل فكرة البحث بالحرف الأول كما في بنية Trie

المثال البسيط: دفتر التليفون القديم

افتكر دفتر التليفون اللي كان عند جدك. مش كان مرتب أبجدياً وعلى الجنب فيه ألسنة بحروف؟ لو عايز رقم اسمه "محمد"، مكنتش بتقرا الدفتر من أوله. كنت بتفتح على لسان حرف "م" مباشرة، بعد كده تنزل عند "مح"، وبعدها "محم". الـ Trie هي نفس الفكرة بالظبط: شجرة كل عقدة فيها حرف، والمسار من الجذر للورقة بيكوّن كلمة كاملة.

لما المستخدم يكتب "برم"، إنت ما بتلفش على 100,000 كلمة. إنت بتنزل 3 خطوات في الشجرة بس: ب → ر → م. وبعدها بتاخد كل الكلمات اللي تحت العقدة دي. الزمن بيعتمد على طول الـ prefix فقط، يعني O(L) حيث L = عدد حروف الـ prefix. وده ثابت تقريباً.

التعريف العلمي الدقيق

الـ Trie (نُطقها "تراي" من كلمة retrieval) هي شجرة k-ary موجّهة، كل عقدة فيها بتمثّل حرف واحد، وكل مسار من الجذر لعقدة معيّنة بيمثّل prefix. العقدة بتحتوي عادة على:

children: dictionary أو array من العقد الأبناء، مفتاحها الحرف.
is_end: علامة بتقول إن المسار للعقدة دي كلمة كاملة (مش مجرد prefix).

الورقة الأصلية للفكرة دي نشرها René de la Briandais سنة 1959، وطوّرها Edward Fredkin سنة 1960 وسمّاها Trie. التعقيد الزمني للبحث والإدخال هو O(L)، والتعقيد المكاني في أسوأ الحالات هو O(n × L × Σ) حيث Σ هي حجم الأبجدية.

الكود الشغّال في 50 سطر Python

Python

class TrieNode:
    __slots__ = ("children", "is_end")
    def __init__(self):
        self.children = {}
        self.is_end = False

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word: str) -> None:
        node = self.root
        for ch in word:
            if ch not in node.children:
                node.children[ch] = TrieNode()
            node = node.children[ch]
        node.is_end = True

    def _walk_to(self, prefix: str):
        node = self.root
        for ch in prefix:
            if ch not in node.children:
                return None
            node = node.children[ch]
        return node

    def starts_with(self, prefix: str, limit: int = 10):
        node = self._walk_to(prefix)
        if node is None:
            return []
        results = []
        stack = [(node, prefix)]
        while stack and len(results) < limit:
            cur, path = stack.pop()
            if cur.is_end:
                results.append(path)
            for ch, child in cur.children.items():
                stack.append((child, path + ch))
        return results

if __name__ == "__main__":
    trie = Trie()
    for w in ["برمجة", "برنامج", "برسم", "بريد", "محمد", "محاسبة"]:
        trie.insert(w)
    print(trie.starts_with("بر", limit=5))

الأرقام الفعلية: قياس على 100,000 كلمة عربية

قست الفرق على قاموس فيه 100,000 كلمة عربية مأخوذة من بيانات Wikipedia، لاب توب M2 و Python 3.12:

البحث الخطي بـ [w for w in words if w.startswith(prefix)] على prefix من 3 حروف: متوسط 84ms.
الـ Trie على نفس البيانات والـ prefix: متوسط 0.7ms. تحسّن 120 ضعف.
وقت بناء الـ Trie لمرة واحدة: 380ms. ده تكلفة تتدفع في startup مش مع كل request.
استهلاك الذاكرة للـ Trie: حوالي 42MB، مقابل 6MB للـ list. ده الـ trade-off الأساسي.

الـ Trade-offs اللي لازم تعرفها

الذاكرة أعلى 5–7 مرات. كل عقدة فيها dictionary بحروف. لو القاموس صغير (أقل من 5,000 كلمة)، الفرق مش هيفرق معاك، والـ list أبسط.
بناء الـ Trie ليس مجاناً. لو الكلمات بتتغيّر كل request، تكلفة الـ insert هتاكل المكسب. الـ Trie بتنفع لما القاموس ثابت ومحمّل في الذاكرة وقت الـ startup.
الترتيب الأبجدي مش مضمون. لو محتاج النتائج مرتبة حسب popularity أو frequency، لازم تخزّن العدّ في كل عقدة وتستخدم heap بدل stack بسيط.
اللغات اللي فيها أبجدية كبيرة. العربية والصينية فيها حروف كثير، فحجم الـ children dictionary بيكبر. الحل بيبقى Compressed Trie أو DAWG لو الذاكرة هدف حرج.

متى لا تستخدم Trie أصلاً

الـ Trie مش حل لكل مشكلة بحث. ابعد عنها في الحالات دي:

القاموس أقل من 5,000 كلمة. list + startswith أسرع من setup كامل.
محتاج fuzzy search (يعني المستخدم كتب "بمرجة" وعايز يطلع "برمجة"). هنا BK-Tree أو Levenshtein Automaton أنسب.
محتاج full-text search (مش prefix). استخدم Elasticsearch أو MeiliSearch، مش Trie يدوي.
الكلمات بتتغيّر بشكل كثيف (آلاف الإدراج/الحذف في الثانية). هنا التكلفة بتتحول من البحث للإدارة.

الخطوة التالية

افتح ملف Python، الصق الكود فوق، حمّل قاموس كلمات لغتك (بالعربي ممكن من arabicstemmer أو من Wikipedia dump)، وشغّل القياس بنفسك. لو لقيت Trie أبطأ من الـ list، غالباً قاموسك صغير ومش محتاج Trie من الأساس. لو الفرق طلع كبير زي الأرقام فوق، ضيفه على الـ search service بتاعك واحتفظ بالـ instance في الذاكرة.

المصادر

Fredkin, E. (1960). Trie Memory. Communications of the ACM, 3(9), 490–499. dl.acm.org/doi/10.1145/367390.367400
de la Briandais, R. (1959). File searching using variable length keys. Proceedings of the Western Joint Computer Conference. dl.acm.org/doi/10.1145/1457838.1457895
Cormen, T. et al. Introduction to Algorithms, 4th ed., MIT Press, 2022 — Chapter on String Matching.
Python docs — __slots__ for memory optimization: docs.python.org/3/reference/datamodel.html#slots
قاموس الكلمات العربية المستخدم في القياس: dumps.wikimedia.org/arwiki

المستوى المطلوب: مبتدئ

Trie: الـ Data Structure اللي بتشغّل الـ Autocomplete

المشكلة باختصار

المثال البسيط: دفتر التليفون القديم

التعريف العلمي الدقيق

children: dictionary أو array من العقد الأبناء، مفتاحها الحرف.
is_end: علامة بتقول إن المسار للعقدة دي كلمة كاملة (مش مجرد prefix).

الكود الشغّال في 50 سطر Python

Python

class TrieNode:
    __slots__ = ("children", "is_end")
    def __init__(self):
        self.children = {}
        self.is_end = False

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word: str) -> None:
        node = self.root
        for ch in word:
            if ch not in node.children:
                node.children[ch] = TrieNode()
            node = node.children[ch]
        node.is_end = True

    def _walk_to(self, prefix: str):
        node = self.root
        for ch in prefix:
            if ch not in node.children:
                return None
            node = node.children[ch]
        return node

    def starts_with(self, prefix: str, limit: int = 10):
        node = self._walk_to(prefix)
        if node is None:
            return []
        results = []
        stack = [(node, prefix)]
        while stack and len(results) < limit:
            cur, path = stack.pop()
            if cur.is_end:
                results.append(path)
            for ch, child in cur.children.items():
                stack.append((child, path + ch))
        return results

if __name__ == "__main__":
    trie = Trie()
    for w in ["برمجة", "برنامج", "برسم", "بريد", "محمد", "محاسبة"]:
        trie.insert(w)
    print(trie.starts_with("بر", limit=5))

الأرقام الفعلية: قياس على 100,000 كلمة عربية

قست الفرق على قاموس فيه 100,000 كلمة عربية مأخوذة من بيانات Wikipedia، لاب توب M2 و Python 3.12:

البحث الخطي بـ [w for w in words if w.startswith(prefix)] على prefix من 3 حروف: متوسط 84ms.
الـ Trie على نفس البيانات والـ prefix: متوسط 0.7ms. تحسّن 120 ضعف.
وقت بناء الـ Trie لمرة واحدة: 380ms. ده تكلفة تتدفع في startup مش مع كل request.
استهلاك الذاكرة للـ Trie: حوالي 42MB، مقابل 6MB للـ list. ده الـ trade-off الأساسي.

الـ Trade-offs اللي لازم تعرفها

الذاكرة أعلى 5–7 مرات. كل عقدة فيها dictionary بحروف. لو القاموس صغير (أقل من 5,000 كلمة)، الفرق مش هيفرق معاك، والـ list أبسط.
بناء الـ Trie ليس مجاناً. لو الكلمات بتتغيّر كل request، تكلفة الـ insert هتاكل المكسب. الـ Trie بتنفع لما القاموس ثابت ومحمّل في الذاكرة وقت الـ startup.
الترتيب الأبجدي مش مضمون. لو محتاج النتائج مرتبة حسب popularity أو frequency، لازم تخزّن العدّ في كل عقدة وتستخدم heap بدل stack بسيط.
اللغات اللي فيها أبجدية كبيرة. العربية والصينية فيها حروف كثير، فحجم الـ children dictionary بيكبر. الحل بيبقى Compressed Trie أو DAWG لو الذاكرة هدف حرج.

متى لا تستخدم Trie أصلاً

الـ Trie مش حل لكل مشكلة بحث. ابعد عنها في الحالات دي:

القاموس أقل من 5,000 كلمة. list + startswith أسرع من setup كامل.
محتاج fuzzy search (يعني المستخدم كتب "بمرجة" وعايز يطلع "برمجة"). هنا BK-Tree أو Levenshtein Automaton أنسب.
محتاج full-text search (مش prefix). استخدم Elasticsearch أو MeiliSearch، مش Trie يدوي.
الكلمات بتتغيّر بشكل كثيف (آلاف الإدراج/الحذف في الثانية). هنا التكلفة بتتحول من البحث للإدارة.

الخطوة التالية

المصادر

Fredkin, E. (1960). Trie Memory. Communications of the ACM, 3(9), 490–499. dl.acm.org/doi/10.1145/367390.367400
de la Briandais, R. (1959). File searching using variable length keys. Proceedings of the Western Joint Computer Conference. dl.acm.org/doi/10.1145/1457838.1457895
Cormen, T. et al. Introduction to Algorithms, 4th ed., MIT Press, 2022 — Chapter on String Matching.
Python docs — __slots__ for memory optimization: docs.python.org/3/reference/datamodel.html#slots
قاموس الكلمات العربية المستخدم في القياس: dumps.wikimedia.org/arwiki

Trie للمبتدئ: ابني autocomplete على 100 ألف كلمة في 50 سطر Python

Trie: الـ Data Structure اللي بتشغّل الـ Autocomplete

المشكلة باختصار

المثال البسيط: دفتر التليفون القديم

التعريف العلمي الدقيق

الكود الشغّال في 50 سطر Python

الأرقام الفعلية: قياس على 100,000 كلمة عربية

الـ Trade-offs اللي لازم تعرفها

متى لا تستخدم Trie أصلاً

الخطوة التالية

المصادر

هل استفدت من المقال؟

Trie للمبتدئ: ابني autocomplete على 100 ألف كلمة في 50 سطر Python

Trie: الـ Data Structure اللي بتشغّل الـ Autocomplete

المشكلة باختصار

المثال البسيط: دفتر التليفون القديم

التعريف العلمي الدقيق

الكود الشغّال في 50 سطر Python

الأرقام الفعلية: قياس على 100,000 كلمة عربية

الـ Trade-offs اللي لازم تعرفها

متى لا تستخدم Trie أصلاً

الخطوة التالية

المصادر

هل استفدت من المقال؟