مقالات عملية مرتبة حسب المجال والمستوى، اختر المجال المناسب واقرأ من مستوى مبتدئ إلى محترف.
لو production بتاعك بيكسر في 11% من responses عشان Llama رجّع JSON بـ trailing comma أو enum غلط، Constrained Decoding بيضمن JSON صحيح 100% بـ overhead 4-12ms/token بدون فقد جودة. دليل للمحترف بمثال السكة الحديد للمبتدئ، شرح Logit Masking عبر FSM من ورقة Willard & Louf 2023، كود Python شغّال على Outlines و Llama 3.1 70B، أرقام مقاسة على 4180 فاتورة عربية، 4 trade-offs خفية، ومتى Constrained Decoding مضيعة وقت.
لو بتدفع $4,800 شهرياً في inference Llama 3.1 70B على H100 وبتشتكي إن الـ TPS واقفة عند 42 توكن/ثانية لكل مستخدم، المشكلة مش في الـ GPU. Speculative Decoding بيخلّي نموذج 3B يقترح ونموذج 70B يتحقق بالتوازي، فيقفز TPS لـ 113 (2.7×) بنفس الـ logits بالظبط. دليل للمحترف بمثال الصحفي والمُحرر، شرح علمي من ورقة Leviathan 2023 (Google Research)، إعداد vLLM 0.6.5 شغّال، أرقام مقاسة (acceptance rate 0.74، latency من 510ms لـ 190ms)، 4 trade-offs خفية، ومتى Speculation overhead بدون فايدة.
لو بتشغّل Llama 3.1 70B على H100 ومحتاج تنزّل الـ latency تحت 500ms للمستخدم، Speculative Decoding بيرفع الـ throughput من 24 إلى 58 token/sec بنموذج draft صغير. مقال للمحترف بمثال المحرر والمدقق اللغوي للمبتدئ، شرح علمي من ورقة Leviathan 2022 (Google) و Chen 2023 (DeepMind)، إعداد vLLM 0.6.3+ شغّال مع Llama-3.2-1B كـ draft، أرقام مقاسة على workload عربي حقيقي 2,800 طلب، 5 trade-offs خفية، ومتى الـ Speculative Decoding بيكون مضيعة memory.
لو بتشغّل Llama 3.1 70B على H100 وبتقيس 32 token/ثانية، أنت بتستخدم 4% بس من قدرة الـ GPU. Speculative Decoding بيرفع الرقم لـ 74 token/ثانية بدون فقدان جودة. مقال للمحترف بمثال مطبخ المطعم، شرح علمي من ورقة Leviathan 2023 (ICML)، إعدادات vLLM 0.7+ شغّالة، أرقام مقاسة على H100 (acceptance rate 0.78 لكود، 0.41 لكتابة إبداعية)، 4 trade-offs خفية في الإنتاج، ومتى Speculative Decoding overhead بدون فايدة.
دليل تنفيذي للمحترف لتفعيل Speculative Decoding في vLLM 0.6.3 على Llama 3.1 70B بنموذج draft من 1B، بيرفع throughput من 38 لـ 91 token/sec على H100 (2.39×) مع نفس output احتمالياً، بـ acceptance rate 73.4% مقاسة على 1,200 طلب عربي.
دليل تنفيذي للمحترف لتفعيل Speculative Decoding على vLLM يرفع throughput Llama 70B من 87 لـ 234 token/s على H100، مع رياضيات rejection sampling، 4 trade-offs خفية، ومتى تكون speculation مضيعة وقت.
دليل تنفيذي للمحترف لبناء Eval Pipeline بـ LLM-as-a-Judge في 47 سطر Python، بيمسك الـ regression في 12 دقيقة بدل 4 أيام، بـ Spearman correlation 0.87 مع تقييم البشر، وتكلفة $1.40 لكل run على 200 sample.
لو شغّلت Reranker على RAG عربي عندك ولسه precision@5 واقفة عند 71%، المشكلة مش في الـ reranker. المشكلة إن الـ chunk اللي صح أصلاً مش بين الـ top-20 اللي وصلت للـ reranker. Contextual Retrieval من Anthropic بيحقن سياق كل chunk قبل الـ embedding، فينزّل failed retrievals 35% بـ embeddings لوحدها، و49% بإضافة BM25، و67% لما تضيفلهم reranker. مقال للمحترف بمثال موظف الأرشيف، شرح علمي من Anthropic Research (Sept 2024) و Lewis 2020، كود Python في 34 سطر شغّال على anthropic SDK 0.49+ مع prompt caching، أرقام مقاسة على corpus عربي 11,400 chunk من تذاكر دعم fintech، 4 trade-offs خفية في التكلفة والـ latency والـ index size، ومتى الـ Contextual Retrieval overhead بدون فايدة.
لو بتشغّل Llama 3.1 70B على H100 وبتخدم 23 request متزامن بس قبل ما تقع في OOM، المشكلة مش في الـ GPU. 60-80% من ذاكرة KV cache بتضيع في fragmentation. PagedAttention بيستلف فكرة Virtual Memory من نظام التشغيل ويرفع الـ throughput لـ 2.7×. مقال للمحترف بمثال رفوف المكتبة للمبتدئ، شرح علمي من ورقة Kwon 2023 (UC Berkeley)، configuration vLLM شغّال، أرقام مقاسة (memory utilization من 20.4% لـ 96.3%)، 4 trade-offs خفية، ومتى PagedAttention يبقى overhead بدون فايدة.