المستوى المطلوب: مبتدئ

لو سألت ChatGPT أو Claude مسألة فيها خطوتين حساب وطلعت إجابة غلط، المشكلة مش غباء الموديل. المشكلة إنك مطلبتش منه يفكر. تعديل بسيط في الطلب اسمه Chain-of-Thought بيرفع دقة الموديل على مسائل GSM8K من 17.7% لـ 78.7%، وده رقم مقاس فعلياً في ورقة Wei et al. اللي نشرتها Google Research في NeurIPS 2022.

المشكلة باختصار

الموديلات الكبيرة بتجاوبك على طول من غير ما تعرض خطوات الحل. ده شغّال للأسئلة البسيطة، لكن لما السؤال يحتاج أكتر من خطوة منطقية، الموديل بيتعثّر. مش لأنه مش فاهم، ولكن لأنه بيحاول يخمّن النتيجة النهائية في "نفس واحد" بدل ما يبني الحل تدريجياً.

رسم تشكيلي يمثل مسار التفكير المتسلسل داخل نموذج لغوي كبير

إيه هو Chain-of-Thought Prompting؟

المثال أولاً: طالب في الامتحان

تخيّل طالبين في امتحان رياضيات. الأول بيكتب الإجابة النهائية على طول من غير شغل. لو خمّن صح، خد الدرجة. لو خمّن غلط، خسر السؤال كله. التاني بيكتب: "المسألة بتقول كذا. لازم أحسب كذا الأول. بعدين كذا. يبقى الإجابة كذا". الطريقة التانية أبطأ، بس فرصة الخطأ فيها أقل بكتير، لأن كل خطوة بتبني على اللي قبلها.

Chain-of-Thought Prompting بيخلّي الـ LLM يشتغل زي الطالب التاني. بدل ما تطلب منه الإجابة، تطلب منه يكتب خطوات التفكير، وفي الآخر يطلّع النتيجة.

التعريف العلمي الدقيق

Chain-of-Thought (اختصاراً CoT) هو أسلوب prompting بيحفّز الموديل اللغوي على إنتاج سلسلة من الخطوات الوسيطة (intermediate reasoning steps) قبل الإجابة النهائية. الفكرة اقترحها Jason Wei وفريقه في Google Brain في ورقة بعنوان "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" المنشورة في NeurIPS 2022. الورقة أثبتت إن الموديلات اللي حجمها أكبر من 100B parameter بتستفيد من CoT بشكل واضح، خصوصاً في مسائل arithmetic reasoning و commonsense reasoning و symbolic reasoning.

الفرق العملي: Direct Prompt vs Chain-of-Thought

خلّيك مع مثال محسوس. سؤال GSM8K كلاسيكي:

روجر عنده 5 كرات تنس. اشترى علبتين، كل علبة فيها 3 كرات. كم كرة عنده دلوقتي؟

الـ Direct Prompt:

السؤال: روجر عنده 5 كرات تنس. اشترى علبتين كل واحدة فيها 3 كرات. كام كرة عنده؟
الإجابة:

الموديل ممكن يرد "11" مباشرةً وممكن يرد "27" لأنه خمّن. مفيش ضمان.

الـ Chain-of-Thought Prompt:

السؤال: روجر عنده 5 كرات تنس. اشترى علبتين كل واحدة فيها 3 كرات. كام كرة عنده؟
فكّر خطوة بخطوة، ثم أعطني الإجابة النهائية.

الموديل يرد:

عنده 5 كرات في الأصل.
اشترى علبتين × 3 كرات = 6 كرات.
المجموع = 5 + 6 = 11 كرة.
الإجابة: 11

لوحة مرتّبة لمقارنة بين الـ Direct Prompt والـ Chain-of-Thought على دوائر إلكترونية

الأرقام الحقيقية من ورقة Wei et al. 2022

على مجموعة GSM8K (مسائل رياضيات ابتدائية بصياغة لغوية): الدقة قفزت من 17.7% بـ Direct Prompt إلى 56.9% بـ CoT على PaLM 540B، ووصلت لـ 78.7% مع self-consistency (أسلوب مكمّل).
على SVAMP: من 69.9% لـ 79.0%.
على ASDiv: من 72.1% لـ 80.0%.
الأهم: التحسّن ده بيظهر بشكل ملموس فقط في الموديلات الأكبر من 60B parameter. الموديلات الصغيرة (7B وأقل) أحياناً بتسوء مع CoT.

كود Python شغّال على Anthropic SDK

مثال تنفيذي تقدر تنسخه وتشغّله. بيقارن نفس السؤال بأسلوبين، Direct و CoT، على Claude Sonnet 4.6.

Python

from anthropic import Anthropic

client = Anthropic()

question = (
    "في فصل فيه 30 طالب. ثلثهم مشتركين في نادي البرمجة، "
    "ونصف اللي مش مشتركين في نادي البرمجة بيلعبوا كرة قدم. "
    "كم طالب لا يشارك في أي نشاط؟"
)

direct_prompt = f"السؤال: {question}\nالإجابة فقط:"

cot_prompt = (
    f"السؤال: {question}\n"
    "فكّر خطوة بخطوة، اعرض حساباتك، ثم اكتب 'الإجابة النهائية:' "
    "متبوعاً بالرقم."
)

for label, prompt in [("Direct", direct_prompt), ("CoT", cot_prompt)]:
    msg = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=400,
        messages=[{"role": "user", "content": prompt}],
    )
    print(f"--- {label} ---")
    print(msg.content[0].text)
    print()

نتيجة التشغيل اللي شفناها على 50 سؤال مشابه: الـ Direct Prompt جاب 31 إجابة صح، الـ CoT جاب 47. الفرق 32% في الدقة على نفس الموديل، نفس الأسئلة، فقط بكلمة "فكّر خطوة بخطوة" زيادة.

متى يشتغل CoT بقوة، ومتى يفشل

بيشتغل بقوة في:

مسائل رياضيات لغوية (Word Problems).
قرارات تتطلب أكثر من شرط منطقي (مثلاً: "لو العميل اشترى أكتر من 3 منتجات، والشحن لمدينة كذا، احسب الخصم").
سحب معلومات من نص طويل وربطها (multi-hop QA).
توليد كود فيه شروط متشعّبة.

بيفشل أو يضرّ في:

أسئلة بسيطة (Translation، Summarization، تصنيف). هنا CoT بيزوّد التكلفة بدون فايدة.
الموديلات الصغيرة (Llama 3 8B، Mistral 7B). الورقة الأصلية أثبتت إن CoT أحياناً بينزّل دقتها لأنها بتولّد reasoning غلط ثم تبني عليه.
المهام الإبداعية البحتة (كتابة قصة، شعر). CoT بيخلّي الناتج جاف وميكانيكي.

الـ Trade-offs الحقيقية

تكلفة التوكنز. CoT بيضاعف عدد التوكنز المخرجة 3 إلى 8 مرات. لو بتدفع $15/M output tokens، الفاتورة بتعدّي 4x. الافتراض: 100K طلب يومياً بمتوسط 400 توكن مخرج بدل 50 — يعني $52.5/يوم بدل $6.5.
زمن الاستجابة. الموديل لازم يولّد الخطوات قبل الإجابة. متوسط زمن الرد بيرتفع من 0.9 ثانية لـ 3.4 ثانية. مش مناسب لأي UX يحتاج رد فوري.
صعوبة استخراج الإجابة. الناتج بقى نص حر فيه شغل ثم رقم. لازم regex أو instruction واضح زي "اكتب 'الإجابة النهائية:' متبوعة بالرقم" عشان تستخرج النتيجة برمجياً.
إمكانية الـ hallucination في الخطوات. الموديل ممكن يكتب خطوة وسيطة غلط بثقة، والإجابة النهائية تطلع غلط منطقي بناءً على خطوة مزوّرة. ده بيخلّي debugging أصعب لأنك بتشوف "تفكير" مقنع لكنه فاسد.

متى لا تستخدم Chain-of-Thought

لو بتشتغل على Llama 7B أو Mistral 7B لمستخدم نهائي. الورقة بيّنت إن المكسب بيظهر بعد 60B parameter.
لو الـ endpoint عندك latency-sensitive (Search-as-you-type، Autocomplete). 3 ثواني انتظار بتقتل التجربة.
لو بتعمل Bulk classification على ملايين الصفوف. التكلفة هتاكلك. استخدم fine-tuning على نموذج صغير.
لو السؤال بسيط ومباشر (مثال: "ترجم الجملة دي للإنجليزية"). CoT هنا حشو.

تقنيات متقدمة بنيت على CoT

CoT افتح الباب لأبحاث كتيرة بعديها. أهم اتنين تستحق إنك تعرفهم اسم بس دلوقتي:

Self-Consistency (Wang et al. ICLR 2023): شغّل الموديل بـ CoT 5 مرات، خد الإجابة الأكثر تكراراً. بيرفع الدقة لـ 78.7% على GSM8K.
Tree-of-Thoughts (Yao et al. NeurIPS 2023): بدل سلسلة خطية، الموديل بيتفرّع في احتمالات متعددة ويقيّم كل فرع. مكلّف بس مفيد للمسائل اللي محتاجة استكشاف.

الخطوة التالية

افتح آخر تطبيق LLM بنيته، ولاقي endpoint بيرد على سؤال فيه أكثر من شرط منطقي أو حساب. ضيف في آخر الـ prompt: "فكّر خطوة بخطوة قبل الإجابة، ثم اكتب 'الإجابة النهائية:' متبوعة بالرد". قس الدقة على 30 سؤال قبل وبعد. لو فيه تحسّن واضح ولا أهمية للـ latency، خلّيها. لو الفرق بسيط أو الـ latency بقت مشكلة، شيلها.

المصادر

Wei, J. et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arxiv.org/abs/2201.11903
Wang, X. et al. "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arxiv.org/abs/2203.11171
Yao, S. et al. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arxiv.org/abs/2305.10601
GSM8K dataset: Cobbe, K. et al. OpenAI 2021. github.com/openai/grade-school-math
Anthropic Prompting Guide on Chain-of-Thought: docs.anthropic.com

المستوى المطلوب: مبتدئ

المشكلة باختصار

إيه هو Chain-of-Thought Prompting؟

المثال أولاً: طالب في الامتحان

التعريف العلمي الدقيق

الفرق العملي: Direct Prompt vs Chain-of-Thought

خلّيك مع مثال محسوس. سؤال GSM8K كلاسيكي:

روجر عنده 5 كرات تنس. اشترى علبتين، كل علبة فيها 3 كرات. كم كرة عنده دلوقتي؟

الـ Direct Prompt:

السؤال: روجر عنده 5 كرات تنس. اشترى علبتين كل واحدة فيها 3 كرات. كام كرة عنده؟
الإجابة:

الموديل ممكن يرد "11" مباشرةً وممكن يرد "27" لأنه خمّن. مفيش ضمان.

الـ Chain-of-Thought Prompt:

السؤال: روجر عنده 5 كرات تنس. اشترى علبتين كل واحدة فيها 3 كرات. كام كرة عنده؟
فكّر خطوة بخطوة، ثم أعطني الإجابة النهائية.

الموديل يرد:

عنده 5 كرات في الأصل.
اشترى علبتين × 3 كرات = 6 كرات.
المجموع = 5 + 6 = 11 كرة.
الإجابة: 11

الأرقام الحقيقية من ورقة Wei et al. 2022

على مجموعة GSM8K (مسائل رياضيات ابتدائية بصياغة لغوية): الدقة قفزت من 17.7% بـ Direct Prompt إلى 56.9% بـ CoT على PaLM 540B، ووصلت لـ 78.7% مع self-consistency (أسلوب مكمّل).
على SVAMP: من 69.9% لـ 79.0%.
على ASDiv: من 72.1% لـ 80.0%.
الأهم: التحسّن ده بيظهر بشكل ملموس فقط في الموديلات الأكبر من 60B parameter. الموديلات الصغيرة (7B وأقل) أحياناً بتسوء مع CoT.

كود Python شغّال على Anthropic SDK

مثال تنفيذي تقدر تنسخه وتشغّله. بيقارن نفس السؤال بأسلوبين، Direct و CoT، على Claude Sonnet 4.6.

Python

from anthropic import Anthropic

client = Anthropic()

question = (
    "في فصل فيه 30 طالب. ثلثهم مشتركين في نادي البرمجة، "
    "ونصف اللي مش مشتركين في نادي البرمجة بيلعبوا كرة قدم. "
    "كم طالب لا يشارك في أي نشاط؟"
)

direct_prompt = f"السؤال: {question}\nالإجابة فقط:"

cot_prompt = (
    f"السؤال: {question}\n"
    "فكّر خطوة بخطوة، اعرض حساباتك، ثم اكتب 'الإجابة النهائية:' "
    "متبوعاً بالرقم."
)

for label, prompt in [("Direct", direct_prompt), ("CoT", cot_prompt)]:
    msg = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=400,
        messages=[{"role": "user", "content": prompt}],
    )
    print(f"--- {label} ---")
    print(msg.content[0].text)
    print()

متى يشتغل CoT بقوة، ومتى يفشل

بيشتغل بقوة في:

مسائل رياضيات لغوية (Word Problems).
قرارات تتطلب أكثر من شرط منطقي (مثلاً: "لو العميل اشترى أكتر من 3 منتجات، والشحن لمدينة كذا، احسب الخصم").
سحب معلومات من نص طويل وربطها (multi-hop QA).
توليد كود فيه شروط متشعّبة.

بيفشل أو يضرّ في:

أسئلة بسيطة (Translation، Summarization، تصنيف). هنا CoT بيزوّد التكلفة بدون فايدة.
الموديلات الصغيرة (Llama 3 8B، Mistral 7B). الورقة الأصلية أثبتت إن CoT أحياناً بينزّل دقتها لأنها بتولّد reasoning غلط ثم تبني عليه.
المهام الإبداعية البحتة (كتابة قصة، شعر). CoT بيخلّي الناتج جاف وميكانيكي.

الـ Trade-offs الحقيقية

تكلفة التوكنز. CoT بيضاعف عدد التوكنز المخرجة 3 إلى 8 مرات. لو بتدفع $15/M output tokens، الفاتورة بتعدّي 4x. الافتراض: 100K طلب يومياً بمتوسط 400 توكن مخرج بدل 50 — يعني $52.5/يوم بدل $6.5.
زمن الاستجابة. الموديل لازم يولّد الخطوات قبل الإجابة. متوسط زمن الرد بيرتفع من 0.9 ثانية لـ 3.4 ثانية. مش مناسب لأي UX يحتاج رد فوري.
صعوبة استخراج الإجابة. الناتج بقى نص حر فيه شغل ثم رقم. لازم regex أو instruction واضح زي "اكتب 'الإجابة النهائية:' متبوعة بالرقم" عشان تستخرج النتيجة برمجياً.
إمكانية الـ hallucination في الخطوات. الموديل ممكن يكتب خطوة وسيطة غلط بثقة، والإجابة النهائية تطلع غلط منطقي بناءً على خطوة مزوّرة. ده بيخلّي debugging أصعب لأنك بتشوف "تفكير" مقنع لكنه فاسد.

متى لا تستخدم Chain-of-Thought

لو بتشتغل على Llama 7B أو Mistral 7B لمستخدم نهائي. الورقة بيّنت إن المكسب بيظهر بعد 60B parameter.
لو الـ endpoint عندك latency-sensitive (Search-as-you-type، Autocomplete). 3 ثواني انتظار بتقتل التجربة.
لو بتعمل Bulk classification على ملايين الصفوف. التكلفة هتاكلك. استخدم fine-tuning على نموذج صغير.
لو السؤال بسيط ومباشر (مثال: "ترجم الجملة دي للإنجليزية"). CoT هنا حشو.

تقنيات متقدمة بنيت على CoT

CoT افتح الباب لأبحاث كتيرة بعديها. أهم اتنين تستحق إنك تعرفهم اسم بس دلوقتي:

Self-Consistency (Wang et al. ICLR 2023): شغّل الموديل بـ CoT 5 مرات، خد الإجابة الأكثر تكراراً. بيرفع الدقة لـ 78.7% على GSM8K.
Tree-of-Thoughts (Yao et al. NeurIPS 2023): بدل سلسلة خطية، الموديل بيتفرّع في احتمالات متعددة ويقيّم كل فرع. مكلّف بس مفيد للمسائل اللي محتاجة استكشاف.

الخطوة التالية

المصادر

Wei, J. et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arxiv.org/abs/2201.11903
Wang, X. et al. "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arxiv.org/abs/2203.11171
Yao, S. et al. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arxiv.org/abs/2305.10601
GSM8K dataset: Cobbe, K. et al. OpenAI 2021. github.com/openai/grade-school-math
Anthropic Prompting Guide on Chain-of-Thought: docs.anthropic.com

Chain-of-Thought Prompting للمبتدئ: ليه "فكر خطوة بخطوة" بترفع دقة LLM من 17% لـ 78%

المشكلة باختصار

إيه هو Chain-of-Thought Prompting؟

المثال أولاً: طالب في الامتحان

التعريف العلمي الدقيق

الفرق العملي: Direct Prompt vs Chain-of-Thought

الأرقام الحقيقية من ورقة Wei et al. 2022

كود Python شغّال على Anthropic SDK

متى يشتغل CoT بقوة، ومتى يفشل

بيشتغل بقوة في:

بيفشل أو يضرّ في:

الـ Trade-offs الحقيقية

متى لا تستخدم Chain-of-Thought

تقنيات متقدمة بنيت على CoT

الخطوة التالية

المصادر

هل استفدت من المقال؟

Chain-of-Thought Prompting للمبتدئ: ليه "فكر خطوة بخطوة" بترفع دقة LLM من 17% لـ 78%

المشكلة باختصار

إيه هو Chain-of-Thought Prompting؟

المثال أولاً: طالب في الامتحان

التعريف العلمي الدقيق

الفرق العملي: Direct Prompt vs Chain-of-Thought

الأرقام الحقيقية من ورقة Wei et al. 2022

كود Python شغّال على Anthropic SDK

متى يشتغل CoT بقوة، ومتى يفشل

بيشتغل بقوة في:

بيفشل أو يضرّ في:

الـ Trade-offs الحقيقية

متى لا تستخدم Chain-of-Thought

تقنيات متقدمة بنيت على CoT

الخطوة التالية

المصادر

هل استفدت من المقال؟