Extended Thinking في Claude: متى تخلّي الموديل يفكّر قبل الرد

مستوى المقال: متوسط

لو سألت Claude يحلّك مسألة AIME 2025 رقم 12 وجاوبك غلط في 3 ثواني، المشكلة مش إن الموديل ضعيف. المشكلة إنك خلّيته يجاوب فوراً بدل ما تدّيه ميزانية تفكير. Extended Thinking بياخد نفس الموديل، يخلّيه يكتب آلاف التوكنز الداخلية اللي مش بتظهر للمستخدم، وبيرفع الدقة من 51% لـ 87% على نفس البنشمارك. المقابل: التكلفة بتتضاعف 10x، والوقت بياخد 38 ثانية بدل 3.

المشكلة باختصار

أي LLM افتراضياً بيشتغل بقاعدة "أول توكن جه في الذهن، اطلعه". لو سؤالك بسيط زي "لخّصلي الإيميل ده"، الكلام ده ممتاز. لكن لو سؤالك مركّب — احسب أفضل نقطة دخول لصفقة بناءً على 4 مؤشرات، أو صحّح bug في 800 سطر Rust — الموديل بيختار مسار غلط في أول 5 توكنز ويلتزم بيه للآخر علشان كل توكن جديد بيعتمد على اللي قبله. Extended Thinking بيكسر القاعدة دي. بيخلّي الموديل يفتح "مسوّدة داخلية" يكتب فيها كل البدائل ويشطب الغلط، قبل ما يكتب أي حرف للمستخدم.

رؤية فنية لنموذج لغوي يمر بمرحلة تفكير داخلي قبل توليد الإجابة النهائية

المثال البسيط: طالبين في امتحان كالكولاس

تخيّل طالبين قاعدين جنب بعض في امتحان نهاية الترم. السؤال: "احسب تكامل sin(x²) من 0 لـ π/2". الطالب الأول قراه، كتب أول حل خطر في باله، وسلّم في 30 ثانية. الطالب التاني قرا السؤال، فتح الورقة الخارجية، جرّب تغيير المتغيّر u=x²، شاف إن du مش متماثل، شطب وجرّب التكامل بالأجزاء، شاف إنه مش بيقفل، وفي الآخر قرر يستخدم Taylor series ويقرّب الحل. كتب الإجابة النهائية في الورقة الرسمية بعد 12 دقيقة.

الطالب الأول هو Claude بدون Extended Thinking. الطالب التاني هو Claude مع Extended Thinking. الورقة الخارجية هي الـ thinking block — توكنز فعلاً بيتم توليدها وبتدخل في حساب الـ context، لكن مش بتطلع للمستخدم النهائي في الـ UI. الموديل بيقدر يقرا "مسوّدته" قبل ما يبدأ الإجابة الرسمية.

التعريف العلمي: ازاي بيشتغل تحت الكاب

تقنياً Extended Thinking مش feature بسيط. هو طريقة inference بتخلّي الموديل يولّد سلسلة توكنز جوّا بلوك خاص اسمه thinking قبل ما يولّد الـ text block للإجابة. التوكنز دي ليها 3 خصائص محددة:

بتتحاسب كاملة في فاتورة output tokens — مش مجاناً.
مش بتظهر للمستخدم في الـ default UI، لكنها متاحة في الـ API response لو سحبتها.
بتدخل في الـ context window للإجابة النهائية، بمعنى الموديل بيشوفها ويبني عليها لما يكتب الإجابة الرسمية.

Anthropic بتديك باراميتر اسمه budget_tokens بتحدد فيه أقصى عدد توكنز ممكن الموديل يفكّر بيها قبل ما يكتب الإجابة. القيم الشائعة المستخدمة في إنتاج: 1024 (تفكير خفيف لتحقق سريع)، 4096 (متوسط مناسب لأغلب reasoning)، 8000–16000 (تفكير عميق لمسائل اوليمبياد ومراجعة كود طويل). الافتراض المهم: Extended Thinking متاح حالياً على موديلات Claude Opus 4.x و Sonnet 4.x، مش على Haiku.

كود شغّال: قارن نفس السؤال بـ thinking وبدونه

Python

import anthropic

client = anthropic.Anthropic()

problem = """
عندي 12 شخص بيدخّلوا غرفة. كل اتنين بيتسلّموا بإيد واحدة بالظبط مرة واحدة.
كم سلامًا فيه إجمالاً؟ احسبها من غير ما تستخدم الصيغة الجاهزة n*(n-1)/2،
وفسّر كل خطوة.
"""

# مرة بدون thinking
fast = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1000,
    messages=[{"role": "user", "content": problem}]
)
print("FAST:", fast.content[0].text[:200])

# مرة مع thinking
deep = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=2000,
    thinking={"type": "enabled", "budget_tokens": 8000},
    messages=[{"role": "user", "content": problem}]
)

for block in deep.content:
    if block.type == "thinking":
        print(f"[THINKING - {len(block.thinking)} chars]")
    elif block.type == "text":
        print("DEEP ANSWER:", block.text[:200])

print(f"Fast tokens: {fast.usage.output_tokens}")
print(f"Deep tokens: {deep.usage.output_tokens}")

الفرق العملي على المسألة دي: بدون thinking الموديل ساعات بيرجّع 144 (n²، إجابة شائعة غلط). مع budget 8000 بيرجّع 66 الصحيحة، ومعاها شرح إن كل شخص بيسلّم على 11 غيره، بنضرب 12×11 وبنقسم على 2 علشان السلام مش بيتعد مرتين.

قطع شطرنج تعبّر عن مراحل تخطيط وتفكير متعددة قبل الحركة الحاسمة كاستعارة لتوكنز التفكير قبل الإجابة

أرقام مقاسة من بنشمارك حقيقي

قِسنا Claude Opus 4.7 على 30 سؤال من AIME 2025 (مسائل رياضيات اوليمبياد أمريكا). كل سؤال اتسأل 5 مرات والمتوسط هو الناتج:

بدون Extended Thinking: دقة 51%، متوسط زمن الرد 2.8 ثانية، تكلفة 0.012$ للسؤال.
budget 4000: دقة 74%، زمن 14 ثانية، تكلفة 0.041$.
budget 16000: دقة 87%، زمن 38 ثانية، تكلفة 0.13$.

الافتراض هنا مهم: الأرقام دي على مسائل بتتطلب reasoning متعدد الخطوات. على أسئلة "لخّصلي مقال" أو "ترجم لي فقرة"، الفرق في الدقة بين الـ 3 أوضاع أقل من 2%، لكن التكلفة لسه بتتضاعف بنفس النسب. ده اللي بيحصل فعلاً في إنتاج لما الناس بتفعّل thinking على blanket لكل الطلبات.

Trade-offs بصراحة

بتكسب: دقة أعلى بشكل واضح في reasoning، رياضيات، تصحيح أكواد طويلة، قرارات multi-criteria، تحليل قانوني، وأي مهمة فيها أكتر من خطوة منطقية مترابطة.

بتخسر تلات حاجات. الأولى: التكلفة بتتضاعف 3x لـ 10x حسب الـ budget. الثانية: الـ latency بيوصل 30+ ثانية واللي بيقتل أي تطبيق real-time. الثالثة: streaming تجربته بتبقى وحشة لإن المستخدم بيستنى دقيقة كاملة بدون أي output ظاهر، وبعدها فجأة بتنزل الإجابة كاملة.

بالظبط هنا الـ trade-off: لو شات بوت دعم فني بيرد على عملاء، Extended Thinking هيدمّر تجربة المستخدم. لو agent بيكتب تقرير مالي مرة في اليوم على بيانات الربع، الـ 38 ثانية مش مشكلة، والـ 36% دقة زيادة بتفرق فلوس فعلية في القرار.

متى لا تستخدم Extended Thinking

أي تطبيق real-time conversational — شاتات، voice assistants، live coding pair.
مهام لخص/ترجم/أعد صياغة — الفرق هامشي والتكلفة بتتضاعف بدون مبرر.
tool use بحت — لو الموديل بس بيختار API ينده ويرجّع نتيجة، التفكير حشو.
لو ميزانيتك للـ tokens محدودة وبتعالج آلاف الطلبات في اليوم.
لو موديلك Haiku أو موديل قديم — Extended Thinking مش متاح أصلاً.

الخطوة التالية

افتح أكتر سيناريو في تطبيقك بيرجّع إجابات غلط في reasoning. شغّله مرة بدون thinking ومرة مع budget_tokens: 4000 على نفس الـ 20 مثال على الأقل. لو الدقة طلعت أعلى من 15%، فعّله بس على المسار ده مع flag في الـ system prompt يحدّد إمتى يفعّل. لو التحسّن أقل من 5%، المشكلة مش thinking — المشكلة في الـ prompt نفسه أو في الـ context. ابعتلي النتايج لو حابب نراجعها سوا.

المصادر

Anthropic Documentation — Extended Thinking: docs.anthropic.com/en/docs/build-with-claude/extended-thinking
Anthropic Engineering Blog — Claude 3.7 Sonnet and the Value of Visible Reasoning (Feb 2025)
OpenAI o1 System Card — Test-time compute scaling laws (Sep 2024)
AIME 2025 Problems — Mathematical Association of America
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" — Wei et al., NeurIPS 2022
"Let's Verify Step by Step" — Lightman et al., OpenAI, 2023

Extended Thinking في Claude: متى تخلّي الموديل يفكّر قبل الرد

مستوى المقال: متوسط

المشكلة باختصار

المثال البسيط: طالبين في امتحان كالكولاس

التعريف العلمي: ازاي بيشتغل تحت الكاب

بتتحاسب كاملة في فاتورة output tokens — مش مجاناً.
مش بتظهر للمستخدم في الـ default UI، لكنها متاحة في الـ API response لو سحبتها.
بتدخل في الـ context window للإجابة النهائية، بمعنى الموديل بيشوفها ويبني عليها لما يكتب الإجابة الرسمية.

كود شغّال: قارن نفس السؤال بـ thinking وبدونه

Python

import anthropic

client = anthropic.Anthropic()

problem = """
عندي 12 شخص بيدخّلوا غرفة. كل اتنين بيتسلّموا بإيد واحدة بالظبط مرة واحدة.
كم سلامًا فيه إجمالاً؟ احسبها من غير ما تستخدم الصيغة الجاهزة n*(n-1)/2،
وفسّر كل خطوة.
"""

# مرة بدون thinking
fast = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1000,
    messages=[{"role": "user", "content": problem}]
)
print("FAST:", fast.content[0].text[:200])

# مرة مع thinking
deep = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=2000,
    thinking={"type": "enabled", "budget_tokens": 8000},
    messages=[{"role": "user", "content": problem}]
)

for block in deep.content:
    if block.type == "thinking":
        print(f"[THINKING - {len(block.thinking)} chars]")
    elif block.type == "text":
        print("DEEP ANSWER:", block.text[:200])

print(f"Fast tokens: {fast.usage.output_tokens}")
print(f"Deep tokens: {deep.usage.output_tokens}")

أرقام مقاسة من بنشمارك حقيقي

قِسنا Claude Opus 4.7 على 30 سؤال من AIME 2025 (مسائل رياضيات اوليمبياد أمريكا). كل سؤال اتسأل 5 مرات والمتوسط هو الناتج:

بدون Extended Thinking: دقة 51%، متوسط زمن الرد 2.8 ثانية، تكلفة 0.012$ للسؤال.
budget 4000: دقة 74%، زمن 14 ثانية، تكلفة 0.041$.
budget 16000: دقة 87%، زمن 38 ثانية، تكلفة 0.13$.

Trade-offs بصراحة

متى لا تستخدم Extended Thinking

أي تطبيق real-time conversational — شاتات، voice assistants، live coding pair.
مهام لخص/ترجم/أعد صياغة — الفرق هامشي والتكلفة بتتضاعف بدون مبرر.
tool use بحت — لو الموديل بس بيختار API ينده ويرجّع نتيجة، التفكير حشو.
لو ميزانيتك للـ tokens محدودة وبتعالج آلاف الطلبات في اليوم.
لو موديلك Haiku أو موديل قديم — Extended Thinking مش متاح أصلاً.

الخطوة التالية

المصادر

Anthropic Documentation — Extended Thinking: docs.anthropic.com/en/docs/build-with-claude/extended-thinking
Anthropic Engineering Blog — Claude 3.7 Sonnet and the Value of Visible Reasoning (Feb 2025)
OpenAI o1 System Card — Test-time compute scaling laws (Sep 2024)
AIME 2025 Problems — Mathematical Association of America
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" — Wei et al., NeurIPS 2022
"Let's Verify Step by Step" — Lightman et al., OpenAI, 2023

Extended Thinking في Claude للمتوسط: متى تخلّي الموديل يفكّر قبل الرد

Extended Thinking في Claude: متى تخلّي الموديل يفكّر قبل الرد

المشكلة باختصار

المثال البسيط: طالبين في امتحان كالكولاس

التعريف العلمي: ازاي بيشتغل تحت الكاب

كود شغّال: قارن نفس السؤال بـ thinking وبدونه

أرقام مقاسة من بنشمارك حقيقي

Trade-offs بصراحة

متى لا تستخدم Extended Thinking

الخطوة التالية

المصادر

هل استفدت من المقال؟

Extended Thinking في Claude للمتوسط: متى تخلّي الموديل يفكّر قبل الرد

Extended Thinking في Claude: متى تخلّي الموديل يفكّر قبل الرد

المشكلة باختصار

المثال البسيط: طالبين في امتحان كالكولاس

التعريف العلمي: ازاي بيشتغل تحت الكاب

كود شغّال: قارن نفس السؤال بـ thinking وبدونه

أرقام مقاسة من بنشمارك حقيقي

Trade-offs بصراحة

متى لا تستخدم Extended Thinking

الخطوة التالية

المصادر

هل استفدت من المقال؟