المستوى المطلوب: متوسط — تحتاج تكون مرتاح مع استدعاءات HTTP، عندك مفتاح Anthropic API، وفاهم فرق التسعير بين الموديلات. لو لسه بتبدأ مع الـ AI، اقرأ مقال Embeddings و Function Calling الأول.

لو فاتورة الـ AI عندك بقت أعلى من فاتورة قاعدة البيانات، المشكلة مش إن الموديل غالي. المشكلة إنك بتبعت كل سؤال — البسيط والصعب — لنفس الموديل الكبير. الـ Model Cascade هو إنك تجرّب موديل رخيص الأول، ولو ما عرفش يجاوب بثقة كافية، تصعّد للموديل الكبير. الناتج العملي في تطبيقات production: توفير من 60% لـ 85% من التكلفة مع الحفاظ على 95%+ من جودة الإجابة.

صفوف خوادم في data center تمثل توجيه طلبات الـ AI بين موديلات مختلفة

Model Cascade: ابعت للرخيص الأول وصعّد لما تحتاج

المشكلة باختصار

تسعير Claude في 2026 بيشتغل على ثلاث طبقات: Haiku 4.5 بـ $1 input / $5 output لكل مليون توكن، Sonnet 4.6 بـ $3/$15، و Opus 4.7 بـ $5/$25. الفرق بين Haiku و Opus خمس مرات في كل اتجاه. لو تطبيقك بيرد على 100 ألف سؤال يومياً، 70% منهم أسئلة بسيطة (تلخيص قصير، استخراج JSON، تصنيف)، أنت بتدفع 5x زيادة على معظم الترافيك بدون داعي.

مثال للمبتدئ — مكتب الاستشارات

تخيّل مكتب استشارات قانونية فيه ثلاث موظفين: متدرب راتبه 5 آلاف، محامي متوسط راتبه 25 ألف، شريك خبير راتبه 125 ألف. لو كل سؤال — من "الميعاد النهائي للاستئناف كام يوم؟" لـ "اعمل مذكرة دفاع لقضية مُعقدة" — بيروح للشريك الخبير، المكتب هيفلس في شهر. الحل البديهي: المتدرب يرد على الأسئلة المباشرة، يحوّل اللي مش متأكد منه للمحامي المتوسط، والمحامي يحوّل النادر جداً للشريك. ده بالظبط الـ Cascade.

التعريف العلمي الدقيق

الـ Model Cascade هو نمط معماري بيشغّل سلسلة موديلات بترتيب صاعد في القدرة والتكلفة، مع بوابة ثقة (confidence gate) بين كل مرحلة. الموديل الأصغر بيجاوب الأول، وبيتبعت رده على فاحص (verifier) إما داخلي (self-eval) أو خارجي (classifier صغير). لو الثقة فوق العتبة، الجواب يرجع للمستخدم. لو تحت، الطلب يتصعّد للموديل الأكبر.

الفرق بينه وبين الـ Routing: في الـ Routing بتاخد قرار واحد قبل ما تستدعي أي موديل (مصنّف بيقول "ده سؤال صعب → Opus"). في الـ Cascade بتستدعي الرخيص فعلياً وبتقرّر بناءً على رده. الـ Routing أرخص في الـ overhead لكن أقل دقة في توزيع الترافيك. الـ Cascade أدق لكن بيدفع تكلفة المرحلة الأولى دايماً.

دائرة كهربية ومسارات تمثل قرار توجيه السؤال بين موديل رخيص وموديل كبير

الأرقام: ليه الموضوع يستحق من الأساس

على بنشمارك RouteLLM المنشورة، التوجيه الذكي بيوفر حتى 85% من التكلفة مع الحفاظ على 95% من جودة GPT-4. على Amazon Bedrock الإحصائيات الرسمية بتقول 60% توفير في إعدادات production فعلية. والورقة الأكاديمية "A Unified Approach to Routing and Cascading for LLMs" من ETH Zürich بتثبت إن الـ cascade routing الموحّد بيتفوّق على كل من الطريقتين منفردتين بنسبة 5–7% في نقطة Pareto.

حساب عملي على ألف سؤال (متوسط 1K توكن دخل + 500 توكن خرج لكل سؤال):

كل الأسئلة لـ Opus 4.7: 1000 × ($0.005 + $0.0125) = $17.50
Cascade (80% Haiku، 20% Opus): (800 × $0.0035) + (200 × $0.0175) = $2.80 + $3.50 = $6.30
التوفير: 64% على نفس الـ 1000 سؤال

كود Python شغّال على Anthropic SDK

الكود ده بيستخدم Haiku كموديل المرحلة الأولى مع تعليمات صريحة إنه يصعّد لو مش متأكد. الـ escalate token بيشتغل كـ confidence gate بسيطة وفعّالة.

Python

import json
from anthropic import Anthropic

client = Anthropic()

ESCALATION_SYSTEM = """أجب بدقة عن سؤال المستخدم.
لو السؤال خارج نطاق معرفتك، أو محتاج تحليل متعدد الخطوات،
أو مش متأكد من الإجابة بنسبة 90%+، ارجع JSON فقط:
{"escalate": true, "reason": "سبب مختصر"}.
غير كده ارجع الإجابة كنص عادي مباشرة."""

def cascade_query(question: str, user_system: str = "") -> dict:
    # المرحلة 1: Haiku 4.5 (الرخيص)
    haiku = client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=600,
        system=f"{user_system}\n\n{ESCALATION_SYSTEM}",
        messages=[{"role": "user", "content": question}],
    )
    text = haiku.content[0].text.strip()

    # بوابة الثقة
    try:
        parsed = json.loads(text)
        should_escalate = parsed.get("escalate") is True
    except json.JSONDecodeError:
        should_escalate = False

    if not should_escalate:
        return {"answer": text, "model": "haiku-4.5", "escalated": False}

    # المرحلة 2: Opus 4.7 (الكبير)
    opus = client.messages.create(
        model="claude-opus-4-7",
        max_tokens=1500,
        system=user_system,
        messages=[{"role": "user", "content": question}],
    )
    return {
        "answer": opus.content[0].text,
        "model": "opus-4.7",
        "escalated": True,
    }

# مثال
result = cascade_query("ما عاصمة فرنسا؟")
print(result["model"])  # haiku-4.5

result = cascade_query("صمّم لي معمارية موزّعة لمعالجة 50 ألف طلب/ث مع consistency قوي")
print(result["model"])  # opus-4.7

قياس قبل وبعد على عيّنة 500 سؤال

جرّبت الكود على dataset عربي خاص فيه 500 سؤال (320 سؤال بسيط، 180 سؤال تحليلي):

قبل (كله Opus): $8.75 إجمالي، متوسط زمن استجابة 3.2 ثانية
بعد (Cascade): $3.10 إجمالي، متوسط زمن استجابة 1.4 ثانية للأسئلة البسيطة، 4.1 ثانية للمصعّدة (بسبب الاستدعاء المزدوج)
دقة الإجابة (LLM-as-judge على Sonnet 4.6): 96.4% → 94.8% (فرق 1.6 نقطة)
التوفير الفعلي: 64.5%

آلة حاسبة وأوراق تمثل خفض تكلفة استدعاءات نماذج الذكاء الاصطناعي

Trade-offs لازم تعرفها

الـ Cascade مش وجبة مجانية. اللي بتكسبه: تكلفة أقل بشكل جذري. اللي بتخسره:

Latency مزدوج للأسئلة الصعبة. الأسئلة اللي بتتصعّد بتاخد وقت Haiku + وقت Opus. لو 20% من ترافيكك بيتصعّد، متوسط الـ p95 latency بيرتفع 15–25%.
اعتماد على دقة بوابة الثقة. لو Haiku ما عرفش يقول "أنا مش متأكد"، بيرد بثقة على إجابة غلط. الحل: قياس rate of false-confidence على عيّنة test أسبوعياً.
تعقيد المراقبة. هتحتاج dashboard يفصل cost و latency و quality لكل موديل على حدة، بدل metric واحد.
الافتراض إن أسئلتك متفاوتة في الصعوبة. لو كل ترافيكك أسئلة من نفس النوع والتعقيد، الـ cascade ميفيدش — ابعت كله للموديل المناسب مرة واحدة.

متى لا تستخدم Model Cascade

تطبيقات real-time صارمة (<500ms p95). الاستدعاء المزدوج بيكسر الـ SLA.
أسئلة كلها صعبة. لو >60% من الترافيك بيتصعّد، أنت بتدفع تكلفة Haiku على الفاضي. ابعت كله Opus من الأول.
محتوى حرج للسلامة (طبي، قانوني، مالي). هنا الجودة فوق التوفير. استخدم Opus + verifier ثاني للمراجعة.
حجم ترافيك صغير (<1000 سؤال/يوم). التوفير الفعلي بالدولار قليل، والـ overhead الهندسي مش يستحق.

المصادر

Anthropic Pricing Documentation: platform.claude.com/docs/about-claude/pricing
"A Unified Approach to Routing and Cascading for LLMs" — De Koninck et al., ETH Zürich (arXiv:2410.10347)
RouteLLM benchmarks — LMSys (cost reduction 85% with 95% quality retention)
"Cloud IDR — Complete LLM Pricing Comparison 2026" (مرجع مقارنة الـ 250x cost spread)
"A Self-Aware and Token-Efficient Approach to Routing and Cascading" — EMNLP 2025

الخطوة التالية

افتح أحدث استدعاء Claude في كودك. عدّ نسبة الأسئلة اللي رد عليها بأقل من 100 توكن — دي مرشّحة لـ Haiku على طول. ضيف الـ cascade_query فوق على endpoint واحد فقط، شغّله على ترافيك حقيقي يومين، وقارن الفاتورة. لو وفّرت أكثر من 50% بدون شكاوى من المستخدمين، عمّمه على باقي الـ endpoints.

]]>

Model Cascade: ابعت للرخيص الأول وصعّد لما تحتاج

المشكلة باختصار

مثال للمبتدئ — مكتب الاستشارات

التعريف العلمي الدقيق

الأرقام: ليه الموضوع يستحق من الأساس

حساب عملي على ألف سؤال (متوسط 1K توكن دخل + 500 توكن خرج لكل سؤال):

كل الأسئلة لـ Opus 4.7: 1000 × ($0.005 + $0.0125) = $17.50
Cascade (80% Haiku، 20% Opus): (800 × $0.0035) + (200 × $0.0175) = $2.80 + $3.50 = $6.30
التوفير: 64% على نفس الـ 1000 سؤال

كود Python شغّال على Anthropic SDK

Python

import json
from anthropic import Anthropic

client = Anthropic()

ESCALATION_SYSTEM = """أجب بدقة عن سؤال المستخدم.
لو السؤال خارج نطاق معرفتك، أو محتاج تحليل متعدد الخطوات،
أو مش متأكد من الإجابة بنسبة 90%+، ارجع JSON فقط:
{"escalate": true, "reason": "سبب مختصر"}.
غير كده ارجع الإجابة كنص عادي مباشرة."""

def cascade_query(question: str, user_system: str = "") -> dict:
    # المرحلة 1: Haiku 4.5 (الرخيص)
    haiku = client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=600,
        system=f"{user_system}\n\n{ESCALATION_SYSTEM}",
        messages=[{"role": "user", "content": question}],
    )
    text = haiku.content[0].text.strip()

    # بوابة الثقة
    try:
        parsed = json.loads(text)
        should_escalate = parsed.get("escalate") is True
    except json.JSONDecodeError:
        should_escalate = False

    if not should_escalate:
        return {"answer": text, "model": "haiku-4.5", "escalated": False}

    # المرحلة 2: Opus 4.7 (الكبير)
    opus = client.messages.create(
        model="claude-opus-4-7",
        max_tokens=1500,
        system=user_system,
        messages=[{"role": "user", "content": question}],
    )
    return {
        "answer": opus.content[0].text,
        "model": "opus-4.7",
        "escalated": True,
    }

# مثال
result = cascade_query("ما عاصمة فرنسا؟")
print(result["model"])  # haiku-4.5

result = cascade_query("صمّم لي معمارية موزّعة لمعالجة 50 ألف طلب/ث مع consistency قوي")
print(result["model"])  # opus-4.7

قياس قبل وبعد على عيّنة 500 سؤال

جرّبت الكود على dataset عربي خاص فيه 500 سؤال (320 سؤال بسيط، 180 سؤال تحليلي):

قبل (كله Opus): $8.75 إجمالي، متوسط زمن استجابة 3.2 ثانية
بعد (Cascade): $3.10 إجمالي، متوسط زمن استجابة 1.4 ثانية للأسئلة البسيطة، 4.1 ثانية للمصعّدة (بسبب الاستدعاء المزدوج)
دقة الإجابة (LLM-as-judge على Sonnet 4.6): 96.4% → 94.8% (فرق 1.6 نقطة)
التوفير الفعلي: 64.5%

Trade-offs لازم تعرفها

الـ Cascade مش وجبة مجانية. اللي بتكسبه: تكلفة أقل بشكل جذري. اللي بتخسره:

Latency مزدوج للأسئلة الصعبة. الأسئلة اللي بتتصعّد بتاخد وقت Haiku + وقت Opus. لو 20% من ترافيكك بيتصعّد، متوسط الـ p95 latency بيرتفع 15–25%.
اعتماد على دقة بوابة الثقة. لو Haiku ما عرفش يقول "أنا مش متأكد"، بيرد بثقة على إجابة غلط. الحل: قياس rate of false-confidence على عيّنة test أسبوعياً.
تعقيد المراقبة. هتحتاج dashboard يفصل cost و latency و quality لكل موديل على حدة، بدل metric واحد.
الافتراض إن أسئلتك متفاوتة في الصعوبة. لو كل ترافيكك أسئلة من نفس النوع والتعقيد، الـ cascade ميفيدش — ابعت كله للموديل المناسب مرة واحدة.

متى لا تستخدم Model Cascade

تطبيقات real-time صارمة (<500ms p95). الاستدعاء المزدوج بيكسر الـ SLA.
أسئلة كلها صعبة. لو >60% من الترافيك بيتصعّد، أنت بتدفع تكلفة Haiku على الفاضي. ابعت كله Opus من الأول.
محتوى حرج للسلامة (طبي، قانوني، مالي). هنا الجودة فوق التوفير. استخدم Opus + verifier ثاني للمراجعة.
حجم ترافيك صغير (<1000 سؤال/يوم). التوفير الفعلي بالدولار قليل، والـ overhead الهندسي مش يستحق.

المصادر

Anthropic Pricing Documentation: platform.claude.com/docs/about-claude/pricing
"A Unified Approach to Routing and Cascading for LLMs" — De Koninck et al., ETH Zürich (arXiv:2410.10347)
RouteLLM benchmarks — LMSys (cost reduction 85% with 95% quality retention)
"Cloud IDR — Complete LLM Pricing Comparison 2026" (مرجع مقارنة الـ 250x cost spread)
"A Self-Aware and Token-Efficient Approach to Routing and Cascading" — EMNLP 2025

الخطوة التالية

]]>

Model Cascade بالعربي: وفّر 60% من فاتورة الـ AI بدون ما تخسر دقة

Model Cascade: ابعت للرخيص الأول وصعّد لما تحتاج

المشكلة باختصار

مثال للمبتدئ — مكتب الاستشارات

التعريف العلمي الدقيق

الأرقام: ليه الموضوع يستحق من الأساس

كود Python شغّال على Anthropic SDK

قياس قبل وبعد على عيّنة 500 سؤال

Trade-offs لازم تعرفها

متى لا تستخدم Model Cascade

المصادر

الخطوة التالية

هل استفدت من المقال؟

Model Cascade بالعربي: وفّر 60% من فاتورة الـ AI بدون ما تخسر دقة

Model Cascade: ابعت للرخيص الأول وصعّد لما تحتاج

المشكلة باختصار

مثال للمبتدئ — مكتب الاستشارات

التعريف العلمي الدقيق

الأرقام: ليه الموضوع يستحق من الأساس

كود Python شغّال على Anthropic SDK

قياس قبل وبعد على عيّنة 500 سؤال

Trade-offs لازم تعرفها

متى لا تستخدم Model Cascade

المصادر

الخطوة التالية

هل استفدت من المقال؟