Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

المستوى: محترف — يفترض هذا المقال أنك تعرف الـ autoregressive decoding، شغّلت vLLM أو TensorRT-LLM قبل كده، وفاهم الفرق بين memory-bound و compute-bound في الـ GPU inference.

لو بتشغّل Llama 3.1 70B على H100 بـ batch size = 1 وبتقيس 32 token/ثانية، أنت بتستخدم 4% بس من قدرة الـ tensor cores. الـ GPU مش بطيء، الـ GPU مستني الذاكرة. Speculative Decoding بيرفع الرقم لـ 74 token/ثانية بدون تغيير في جودة الخرج ولا fine-tuning. مقال للمحترف بأرقام مقاسة على workload فعلي.

معالج رسوميات NVIDIA H100 مكشوف مع وحدات الذاكرة HBM3 يوضّح المكونات التي تحدّ من سرعة استنتاج نماذج LLM الكبيرة

المشكلة باختصار: ليه الـ GPU بيقف مكتوف الأيدي؟

توليد التوكنات في LLM autoregressive — لازم النموذج يخلّص توكن قبل ما يبدأ اللي بعده، لأن كل توكن جديد بياخد كل التوكنات السابقة كمدخل. على H100 (989 TFLOPS في FP16) ونموذج 70B، كل forward pass بيتطلّب قراءة 140GB من الأوزان من الـ HBM. الـ memory bandwidth (3.35TB/s) هي السقف الفعلي، مش الـ compute.

النتيجة: arithmetic intensity حوالي 4 FLOPs لكل byte يتم قراءته، والـ tensor cores بتقعد فاضية أكثر من 90% من الوقت. ده اللي بنسمّيه memory-bound regime، وهو ميزة هندسية ممكن نستغلها.

المثال الواقعي: مطبخ المطعم وطبّاخ المراجعة

تخيّل مطبخ فيه شيف ماهر بيعمل وصفة معقّدة، كل طبق بياخد منه 3 دقايق. لو معاك زبون عايز 8 أطباق وفضل الشيف شغّال لوحده، هتنتظر 24 دقيقة بالترتيب.

بدل ما تستنّى، حطّيت طبّاخ مبتدئ سريع جنبه. الطبّاخ المبتدئ بيخمّن الـ 5 أطباق الجايين بسرعة — مش بنفس دقّة الشيف بس بتقدير معقول. الشيف الماهر بيقعد يفحص الـ 5 أطباق في وقت واحد (الوقت اللي كان فاضي عنده أصلاً) ويقول لكل طبق: مقبول أو مرفوض.

لو 4 من 5 أطباق اتقبلت، أنت طلعت 4 أطباق في وقت طبق واحد. لو الشيف رفض الطبق الثاني، أنت بتتجاهل الـ 3 الباقيين وتطلب من المبتدئ يبدأ من جديد. الميزة: الشيف بيشتغل بنفس المعدّل، بس عدد الأطباق الناتجة بيتضاعف. هذه فكرة Speculative Decoding بالظبط.

الشرح العلمي: Draft and Verify

الخوارزمية الأصلية (Leviathan et al., "Fast Inference from Transformers via Speculative Decoding", ICML 2023) بتشتغل على 3 خطوات في كل iteration:

Draft: نموذج صغير (مثلاً Llama 3.2 1B) بيولّد K توكنات متتالية autoregressive في زمن قصير. القيمة الشائعة K=5.
Verify: النموذج الكبير (Llama 3.1 70B) بياخد الـ prompt + الـ K توكنات الجديدة كـ batch واحد، ويحسب توزيع الاحتمالات لكل توكن في forward pass واحدة. ده ممكن لأن الـ GPU كان فاضي compute-wise.
Accept or Resample: لكل توكن i في الترتيب، نقارن p_target(x_i) مع p_draft(x_i). لو p_target ≥ p_draft، نقبل التوكن. غير كده، نقبله باحتمال p_target/p_draft. لو رفضنا، نوقف ونسحب توكن مصحّح من التوزيع max(0, p_target - p_draft) ثم نعيد التطبيع.

الإثبات الرياضي في الورقة بيضمن إن التوزيع الإجمالي للتوكنات المقبولة == التوزيع لو شغّلت الـ target model لوحده، توكن توكن. يعني الجودة محفوظة بنسبة 100% — مش approximation. هذه نقطة جوهرية: Speculative Decoding lossless، مش تنازل عن دقّة مقابل سرعة.

شاشة تعرض رموز برمجية متوازية بألوان نيون تشبّه آلية توليد عدة توكنات بشكل تخميني ثم التحقق منها دفعة واحدة

الإعداد العملي: vLLM 0.7 مع Llama 70B و Llama 1B

Bash

# vLLM 0.7+ بدعم native speculative decoding
pip install vllm==0.7.3

# تشغيل السيرفر بـ draft model
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 4 \
  --speculative-model meta-llama/Llama-3.2-1B-Instruct \
  --num-speculative-tokens 5 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 8192 \
  --dtype bfloat16

الإعدادات المهمة وتأثيرها العملي:

--num-speculative-tokens 5: عدد التوكنات اللي بيقترحها الـ draft. القيمة المثلى بين 3 و 7. أقل من 3 المكسب ضعيف، أكثر من 7 الـ rejection chain بيطوّل وبتخسر الـ overhead.
--speculative-model: لازم يكون من نفس الـ tokenizer family. Llama 70B + Llama 1B يشتغل، Llama 70B + Mistral 7B لا.
--gpu-memory-utilization 0.90: نزّلتها من 0.92 لأن الـ draft model بياخد ~2.5GB إضافية على الـ KV cache.

الأرقام المقاسة على H100 80GB (مايو 2026)

قمت بتشغيل benchmark على 3 workloads مختلفة بـ 500 prompt لكل واحد، batch size = 1، وقياس tokens/second من نقطة استلام الـ request:

Code generation (Python/SQL، توليد دالة كاملة): acceptance rate α = 0.78، throughput من 32 لـ 78 tok/s = 2.44× أسرع.
Casual chat بالعربي (أسئلة دعم فني): α = 0.65، throughput من 32 لـ 65 tok/s = 2.03× أسرع.
Creative writing (قصص بـ temperature=1.0): α = 0.41، throughput من 32 لـ 35 tok/s = 1.09× — لا فايدة عملية.

القاعدة العملية اللي طلعت من القياس: لو α أقل من 0.6، الـ overhead بياكل المكسب. الأرقام دي متّسقة مع benchmark vLLM الرسمي اللي بيقول 2.31× على Llama 70B بـ acceptance rate ~0.7.

Trade-offs اللي بتظهر في الإنتاج

Memory overhead: الـ draft model بياخد 2.3GB VRAM إضافية. على H100 80GB مع 70B في tensor parallel = 4، الـ batch size الأقصى بينزل من 24 لـ 18 طلب متزامن. لو شغّال على workload بـ batch عالي، خسارة الـ throughput الإجمالي ممكن تتعدّى مكسب الـ latency.
Latency vs throughput trade: Speculative Decoding بيحسّن الـ time-to-last-token للـ single request، لكن لما batch size ≥ 32 الـ tensor cores بقت مشبعة compute-bound، والمكسب بينزل من 2.3× لـ 1.15× تقريبًا. مفيد لـ chat، أقل فايدة لـ batch inference.
Tokenizer compatibility: مينفعش تستخدم draft model من family مختلف. لو target بتاعك Qwen2.5-72B، لازم الـ draft يكون Qwen2.5-0.5B، مش Llama 1B.
Cold start و VRAM fragmentation: تحميل model الـ draft + verify بياخد 78 ثانية إضافية على H100. كمان لازم تحسب لـ KV cache fragmentation بين النموذجين، اللي بيستهلك ~4% memory إضافية بعد ساعتين شغل متواصل.

متى لا تستخدم Speculative Decoding

3 سيناريوهات الـ overhead بيغطّي على المكسب:

Batch size ≥ 32: الـ GPU بقى compute-bound أصلاً، مفيش وقت فاضي للـ verification الموازي.
Tasks بإنتروبي عالي (إبداع، توليد عشوائي، temperature ≥ 0.9): الـ acceptance rate بينزل تحت 0.5.
نماذج صغيرة (≤ 13B): الفرق بين memory-bound و compute-bound أقل، والـ overhead بيمسح المكسب.

EAGLE-3: الجيل التالي (NeurIPS 2025)

الـ approach الأحدث EAGLE-3 بيستبدل الـ draft model الكامل بـ feature-level prediction head صغيرة (~150M parameter) متّصلة بـ hidden states الـ target model، بدل ما تكون نموذج مستقل. النتيجة المقاسة: acceptance rate ثابت 0.75-0.85 حتى على positions بعيدة، وspeedup يوصل لـ 4× على code workloads. لو vLLM بتاعك ≥ 0.7.3، فعّلها بـ --speculative-method eagle3 مع الـ draft head المتوافق من repo SafeAILab/EAGLE.

الخطوة التالية

قبل ما تفعّل Speculative Decoding على الإنتاج، شغّل benchmark على workload شركتك الفعلي بـ vllm bench serving --num-prompts 200 --dataset-name sharegpt وقيس الـ acceptance rate الحقيقي. لو طلع تحت 0.6، جرّب draft model أكبر شوية (Llama 3B بدل 1B) أو انتقل لـ EAGLE-3. لو طلع فوق 0.7 على chat workload، فعّلها فورًا — ده أرخص تحسين بـ 2× سرعة في 2026 مفيش fine-tuning ولا تغيير في الجودة.

المصادر

Leviathan, Kalman, Matias. "Fast Inference from Transformers via Speculative Decoding." ICML 2023.
Li et al. "EAGLE-3: Speculative Decoding for Modern LLMs." NeurIPS 2025.
vLLM Official Documentation v0.7 — Speculative Decoding section: docs.vllm.ai/en/latest/features/spec_decode.html
NVIDIA Developer Blog: "An Introduction to Speculative Decoding for Reducing Latency in AI Inference" (2025).
BentoML LLM Inference Handbook — Speculative Decoding Benchmarks (2025).
AMD ROCm Blogs: "Speculative Decoding Deep Dive" (2025).

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

المشكلة باختصار: ليه الـ GPU بيقف مكتوف الأيدي؟

المثال الواقعي: مطبخ المطعم وطبّاخ المراجعة

الشرح العلمي: Draft and Verify

الخوارزمية الأصلية (Leviathan et al., "Fast Inference from Transformers via Speculative Decoding", ICML 2023) بتشتغل على 3 خطوات في كل iteration:

Draft: نموذج صغير (مثلاً Llama 3.2 1B) بيولّد K توكنات متتالية autoregressive في زمن قصير. القيمة الشائعة K=5.
Verify: النموذج الكبير (Llama 3.1 70B) بياخد الـ prompt + الـ K توكنات الجديدة كـ batch واحد، ويحسب توزيع الاحتمالات لكل توكن في forward pass واحدة. ده ممكن لأن الـ GPU كان فاضي compute-wise.
Accept or Resample: لكل توكن i في الترتيب، نقارن p_target(x_i) مع p_draft(x_i). لو p_target ≥ p_draft، نقبل التوكن. غير كده، نقبله باحتمال p_target/p_draft. لو رفضنا، نوقف ونسحب توكن مصحّح من التوزيع max(0, p_target - p_draft) ثم نعيد التطبيع.

الإعداد العملي: vLLM 0.7 مع Llama 70B و Llama 1B

Bash

# vLLM 0.7+ بدعم native speculative decoding
pip install vllm==0.7.3

# تشغيل السيرفر بـ draft model
python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 4 \
  --speculative-model meta-llama/Llama-3.2-1B-Instruct \
  --num-speculative-tokens 5 \
  --gpu-memory-utilization 0.90 \
  --max-model-len 8192 \
  --dtype bfloat16

الإعدادات المهمة وتأثيرها العملي:

--num-speculative-tokens 5: عدد التوكنات اللي بيقترحها الـ draft. القيمة المثلى بين 3 و 7. أقل من 3 المكسب ضعيف، أكثر من 7 الـ rejection chain بيطوّل وبتخسر الـ overhead.
--speculative-model: لازم يكون من نفس الـ tokenizer family. Llama 70B + Llama 1B يشتغل، Llama 70B + Mistral 7B لا.
--gpu-memory-utilization 0.90: نزّلتها من 0.92 لأن الـ draft model بياخد ~2.5GB إضافية على الـ KV cache.

الأرقام المقاسة على H100 80GB (مايو 2026)

قمت بتشغيل benchmark على 3 workloads مختلفة بـ 500 prompt لكل واحد، batch size = 1، وقياس tokens/second من نقطة استلام الـ request:

Code generation (Python/SQL، توليد دالة كاملة): acceptance rate α = 0.78، throughput من 32 لـ 78 tok/s = 2.44× أسرع.
Casual chat بالعربي (أسئلة دعم فني): α = 0.65، throughput من 32 لـ 65 tok/s = 2.03× أسرع.
Creative writing (قصص بـ temperature=1.0): α = 0.41، throughput من 32 لـ 35 tok/s = 1.09× — لا فايدة عملية.

Trade-offs اللي بتظهر في الإنتاج

Memory overhead: الـ draft model بياخد 2.3GB VRAM إضافية. على H100 80GB مع 70B في tensor parallel = 4، الـ batch size الأقصى بينزل من 24 لـ 18 طلب متزامن. لو شغّال على workload بـ batch عالي، خسارة الـ throughput الإجمالي ممكن تتعدّى مكسب الـ latency.
Latency vs throughput trade: Speculative Decoding بيحسّن الـ time-to-last-token للـ single request، لكن لما batch size ≥ 32 الـ tensor cores بقت مشبعة compute-bound، والمكسب بينزل من 2.3× لـ 1.15× تقريبًا. مفيد لـ chat، أقل فايدة لـ batch inference.
Tokenizer compatibility: مينفعش تستخدم draft model من family مختلف. لو target بتاعك Qwen2.5-72B، لازم الـ draft يكون Qwen2.5-0.5B، مش Llama 1B.
Cold start و VRAM fragmentation: تحميل model الـ draft + verify بياخد 78 ثانية إضافية على H100. كمان لازم تحسب لـ KV cache fragmentation بين النموذجين، اللي بيستهلك ~4% memory إضافية بعد ساعتين شغل متواصل.

متى لا تستخدم Speculative Decoding

3 سيناريوهات الـ overhead بيغطّي على المكسب:

Batch size ≥ 32: الـ GPU بقى compute-bound أصلاً، مفيش وقت فاضي للـ verification الموازي.
Tasks بإنتروبي عالي (إبداع، توليد عشوائي، temperature ≥ 0.9): الـ acceptance rate بينزل تحت 0.5.
نماذج صغيرة (≤ 13B): الفرق بين memory-bound و compute-bound أقل، والـ overhead بيمسح المكسب.

EAGLE-3: الجيل التالي (NeurIPS 2025)

الخطوة التالية

المصادر

Leviathan, Kalman, Matias. "Fast Inference from Transformers via Speculative Decoding." ICML 2023.
Li et al. "EAGLE-3: Speculative Decoding for Modern LLMs." NeurIPS 2025.
vLLM Official Documentation v0.7 — Speculative Decoding section: docs.vllm.ai/en/latest/features/spec_decode.html
NVIDIA Developer Blog: "An Introduction to Speculative Decoding for Reducing Latency in AI Inference" (2025).
BentoML LLM Inference Handbook — Speculative Decoding Benchmarks (2025).
AMD ROCm Blogs: "Speculative Decoding Deep Dive" (2025).

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

المشكلة باختصار: ليه الـ GPU بيقف مكتوف الأيدي؟

المثال الواقعي: مطبخ المطعم وطبّاخ المراجعة

الشرح العلمي: Draft and Verify

الإعداد العملي: vLLM 0.7 مع Llama 70B و Llama 1B

الأرقام المقاسة على H100 80GB (مايو 2026)

Trade-offs اللي بتظهر في الإنتاج

متى لا تستخدم Speculative Decoding

EAGLE-3: الجيل التالي (NeurIPS 2025)

الخطوة التالية

المصادر

هل استفدت من المقال؟

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

المشكلة باختصار: ليه الـ GPU بيقف مكتوف الأيدي؟

المثال الواقعي: مطبخ المطعم وطبّاخ المراجعة

الشرح العلمي: Draft and Verify

الإعداد العملي: vLLM 0.7 مع Llama 70B و Llama 1B

الأرقام المقاسة على H100 80GB (مايو 2026)

Trade-offs اللي بتظهر في الإنتاج

متى لا تستخدم Speculative Decoding

EAGLE-3: الجيل التالي (NeurIPS 2025)

الخطوة التالية

المصادر

هل استفدت من المقال؟