أحمد حايس
الرئيسيةمن أناالدوراتالمدونةالمناهج والباقات
أحمد حايس

دورات عربية متخصصة في التقنية والبرمجة والذكاء الاصطناعي.

المنصة مبنية على الوضوح، التطبيق، والنتيجة النافعة: شرح مرتب يساعدك تفهم الأدوات، تكتب كودًا أفضل، وتستخدم الذكاء الاصطناعي بوعي داخل العمل الحقيقي.

تعلم أسرعوصول مباشر للدورات والمسارات من الموبايل.
تنقل أوضحالروابط الأساسية والدعم في مكان واحد بدون تشتيت.

المنصة

  • الرئيسية
  • من أنا
  • الدورات
  • المناهج والباقات
  • المدونة

الدعم

  • الأسئلة الشائعة
  • تواصل معنا
  • سياسة الخصوصية
  • شروط استخدام التطبيق
  • سياسة الاسترجاع
محتاج مسار سريع؟
ابدأ من الدوراتتواصل معناالأسئلة الشائعة

© 2026 أحمد حايس. جميع الحقوق محفوظة.

الرئيسيةالدوراتالمناهجالمدونةالدخول

المدونة

مقالات عملية مرتبة حسب المجال والمستوى، اختر المجال المناسب واقرأ من مستوى مبتدئ إلى محترف.

المجال
كل المجالات
تكنولوجياDevOps بالعربيHow To Make ItOptimizing بالعربيأحدث أخبار التكنولوجياالأوتوميشنالبرمجة بالعربيالذكاء الاصطناعي
المستوى
كل المستوياتمبتدئمتوسطمحترف
Structured Outputs بـ Outlines للمحترف: JSON صحيح 100% من Llama 70B
محترف١١ يونيو ٢٠٢٦

Structured Outputs بـ Outlines للمحترف: JSON صحيح 100% من Llama 70B

لو production بتاعك بيكسر في 11% من responses عشان Llama رجّع JSON بـ trailing comma أو enum غلط، Constrained Decoding بيضمن JSON صحيح 100% بـ overhead 4-12ms/token بدون فقد جودة. دليل للمحترف بمثال السكة الحديد للمبتدئ، شرح Logit Masking عبر FSM من ورقة Willard & Louf 2023، كود Python شغّال على Outlines و Llama 3.1 70B، أرقام مقاسة على 4180 فاتورة عربية، 4 trade-offs خفية، ومتى Constrained Decoding مضيعة وقت.

6 دقائق قراءة
Speculative Decoding للمحترف: سرّع Llama 3.1 70B بـ 2.7× بدون خسارة دقة
محترف٢٥ مايو ٢٠٢٦

Speculative Decoding للمحترف: سرّع Llama 3.1 70B بـ 2.7× بدون خسارة دقة

لو بتدفع $4,800 شهرياً في inference Llama 3.1 70B على H100 وبتشتكي إن الـ TPS واقفة عند 42 توكن/ثانية لكل مستخدم، المشكلة مش في الـ GPU. Speculative Decoding بيخلّي نموذج 3B يقترح ونموذج 70B يتحقق بالتوازي، فيقفز TPS لـ 113 (2.7×) بنفس الـ logits بالظبط. دليل للمحترف بمثال الصحفي والمُحرر، شرح علمي من ورقة Leviathan 2023 (Google Research)، إعداد vLLM 0.6.5 شغّال، أرقام مقاسة (acceptance rate 0.74، latency من 510ms لـ 190ms)، 4 trade-offs خفية، ومتى Speculation overhead بدون فايدة.

7 دقائق قراءة
Speculative Decoding للمحترف: ضاعف سرعة Llama 3.1 70B بـ 2.4× بدون فقدان جودة
محترف٢٥ مايو ٢٠٢٦

Speculative Decoding للمحترف: ضاعف سرعة Llama 3.1 70B بـ 2.4× بدون فقدان جودة

لو بتشغّل Llama 3.1 70B على H100 ومحتاج تنزّل الـ latency تحت 500ms للمستخدم، Speculative Decoding بيرفع الـ throughput من 24 إلى 58 token/sec بنموذج draft صغير. مقال للمحترف بمثال المحرر والمدقق اللغوي للمبتدئ، شرح علمي من ورقة Leviathan 2022 (Google) و Chen 2023 (DeepMind)، إعداد vLLM 0.6.3+ شغّال مع Llama-3.2-1B كـ draft، أرقام مقاسة على workload عربي حقيقي 2,800 طلب، 5 trade-offs خفية، ومتى الـ Speculative Decoding بيكون مضيعة memory.

7 دقائق قراءة
Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة
محترف٢٥ مايو ٢٠٢٦

Speculative Decoding للمحترف: 2.3× سرعة في Llama 70B بـ Draft Model أصغر 70 مرة

لو بتشغّل Llama 3.1 70B على H100 وبتقيس 32 token/ثانية، أنت بتستخدم 4% بس من قدرة الـ GPU. Speculative Decoding بيرفع الرقم لـ 74 token/ثانية بدون فقدان جودة. مقال للمحترف بمثال مطبخ المطعم، شرح علمي من ورقة Leviathan 2023 (ICML)، إعدادات vLLM 0.7+ شغّالة، أرقام مقاسة على H100 (acceptance rate 0.78 لكود، 0.41 لكتابة إبداعية)، 4 trade-offs خفية في الإنتاج، ومتى Speculative Decoding overhead بدون فايدة.

6 دقائق قراءة
Speculative Decoding للمحترف: سرّع Inference 2.4× بدون فقد جودة
محترف٢٥ مايو ٢٠٢٦

Speculative Decoding للمحترف: سرّع Inference 2.4× بدون فقد جودة

دليل تنفيذي للمحترف لتفعيل Speculative Decoding في vLLM 0.6.3 على Llama 3.1 70B بنموذج draft من 1B، بيرفع throughput من 38 لـ 91 token/sec على H100 (2.39×) مع نفس output احتمالياً، بـ acceptance rate 73.4% مقاسة على 1,200 طلب عربي.

5 دقائق قراءة
Speculative Decoding للمحترف: ضاعف سرعة Llama 70B بـ 2.7× بدون فقدان كلمة
محترف٢٥ مايو ٢٠٢٦

Speculative Decoding للمحترف: ضاعف سرعة Llama 70B بـ 2.7× بدون فقدان كلمة

دليل تنفيذي للمحترف لتفعيل Speculative Decoding على vLLM يرفع throughput Llama 70B من 87 لـ 234 token/s على H100، مع رياضيات rejection sampling، 4 trade-offs خفية، ومتى تكون speculation مضيعة وقت.

6 دقائق قراءة
LLM-as-a-Judge للمحترف: Eval Pipeline يمسك Regression قبل الإنتاج
محترف٢٥ مايو ٢٠٢٦

LLM-as-a-Judge للمحترف: Eval Pipeline يمسك Regression قبل الإنتاج

دليل تنفيذي للمحترف لبناء Eval Pipeline بـ LLM-as-a-Judge في 47 سطر Python، بيمسك الـ regression في 12 دقيقة بدل 4 أيام، بـ Spearman correlation 0.87 مع تقييم البشر، وتكلفة $1.40 لكل run على 200 sample.

6 دقائق قراءة
Contextual Retrieval للمحترف: قلّل فشل الاسترجاع 67% قبل Reranker
محترف٢٤ مايو ٢٠٢٦

Contextual Retrieval للمحترف: قلّل فشل الاسترجاع 67% قبل Reranker

لو شغّلت Reranker على RAG عربي عندك ولسه precision@5 واقفة عند 71%، المشكلة مش في الـ reranker. المشكلة إن الـ chunk اللي صح أصلاً مش بين الـ top-20 اللي وصلت للـ reranker. Contextual Retrieval من Anthropic بيحقن سياق كل chunk قبل الـ embedding، فينزّل failed retrievals 35% بـ embeddings لوحدها، و49% بإضافة BM25، و67% لما تضيفلهم reranker. مقال للمحترف بمثال موظف الأرشيف، شرح علمي من Anthropic Research (Sept 2024) و Lewis 2020، كود Python في 34 سطر شغّال على anthropic SDK 0.49+ مع prompt caching، أرقام مقاسة على corpus عربي 11,400 chunk من تذاكر دعم fintech، 4 trade-offs خفية في التكلفة والـ latency والـ index size، ومتى الـ Contextual Retrieval overhead بدون فايدة.

6 دقائق قراءة
PagedAttention للمحترف: ازاي vLLM بيخدم 2.7× طلب أكتر بنفس H100
محترف١٨ مايو ٢٠٢٦

PagedAttention للمحترف: ازاي vLLM بيخدم 2.7× طلب أكتر بنفس H100

لو بتشغّل Llama 3.1 70B على H100 وبتخدم 23 request متزامن بس قبل ما تقع في OOM، المشكلة مش في الـ GPU. 60-80% من ذاكرة KV cache بتضيع في fragmentation. PagedAttention بيستلف فكرة Virtual Memory من نظام التشغيل ويرفع الـ throughput لـ 2.7×. مقال للمحترف بمثال رفوف المكتبة للمبتدئ، شرح علمي من ورقة Kwon 2023 (UC Berkeley)، configuration vLLM شغّال، أرقام مقاسة (memory utilization من 20.4% لـ 96.3%)، 4 trade-offs خفية، ومتى PagedAttention يبقى overhead بدون فايدة.

6 دقائق قراءة

عرض 1 - 9 من 40 مقال

السابق
1
2
3
4
5
التالي