الذكاء الاصطناعي

مقالات عملية مرتبة حسب المجال والمستوى، اختر المجال المناسب واقرأ من مستوى مبتدئ إلى محترف.

محترف30 يوليو 2026

التكميم (Quantization): شغّل نموذج 70B على كارت شاشة واحد

تكميم النموذج بينزّل ذاكرة الأوزان من 16 بت لـ 4 بت، فيوفّر ~4 أضعاف VRAM مقابل فرق دقة صغير. شرح للمحترف بمثال مبسّط ثم علميًا، مع كود bitsandbytes وllama.cpp شغّال، أرقام مقاسة، trade-offs، ومتى لا تستخدمه، مع مصادر رسمية.

4 دقائق قراءة

محترف25 يوليو 2026

فك التشفير التخميني: إزاي تسرّع استدلال الـ LLM 2 إلى 3 أضعاف بدون تغيير الموديل

تقدر تخفّض زمن توليد كل توكن في نموذج اللغة الكبير 2 إلى 3 أضعاف بموديل صغير بيخمّن قدّام والنموذج الكبير بيتحقق دفعة واحدة، بنفس المخرجات بالظبط. شرح للمحترف بمثال واضح ثم علميًا، مع كود vLLM وTransformers شغّال، أرقام مقاسة، الـ trade-offs، ومتى لا تستخدمه، بمصادر رسمية.

5 دقائق قراءة

محترف23 يوليو 2026

الـ KV Cache وPagedAttention: ليه سيرفر الـ LLM بيخنق عند 10 مستخدمين

سيرفر نموذج اللغة بتاعك بيوقف عند 10 مستخدمين رغم إن كرت الشاشة نصه فاضي؟ المشكلة مش في القوة، المشكلة إن الـ KV Cache بيهدر 60–80% من الذاكرة على تجزئة وحجز مبكر. المقال للمحترف يشرح السبب بمثال بسيط ثم علميًا، مع إعداد vLLM قابل للنسخ، أرقام مقاسة (إنتاجية 2–24 ضعفًا)، الـ trade-offs، ومتى لا تستخدمه، بمصادر رسمية.

5 دقائق قراءة

محترف30 يونيو 2026

فك التشفير التخميني: ضاعف سرعة استدلال LLM بلا خسارة في الجودة

فك التشفير التخميني بيخلّي نموذج مسوّدة صغير يقترح والنموذج الكبير يتحقق بالتوازي، فتكسب سرعة 2×–3× بنفس المخرجات بالظبط. شرح المبدأ، إعداد vLLM قابل للنسخ، معدّل القبول، والمقايضات، ومتى متستخدموش.

5 دقائق قراءة

محترف28 يونيو 2026

PagedAttention في vLLM: ليه خدمة الـ LLM بتهدر 80% من ذاكرة الـ GPU وإزاي توصل throughput أعلى 24×

معظم سيرفرات الـ LLM بتهدر 60–80% من ذاكرة الـ GPU بسبب طريقة حجز الـ KV cache. PagedAttention في vLLM بتنزّل التهدير لأقل من 4% وترفع الإنتاجية حتى 24× على نفس العتاد. شرح للمحترف بكود vLLM وأرقام مقاسة وtrade-offs ومتى متستخدمهوش، مع مصادر.

6 دقائق قراءة

محترف24 يونيو 2026

Mixture of Experts للمحترف: سعة 671 مليار باراميتر بحساب 37 مليار فقط

MoE بيخلّيك تبني نموذج بسعة 671 مليار باراميتر وتدفع تكلفة حساب 37 مليار فقط لكل توكن. شرح للمحترف بمثال العيادة، كود PyTorch لطبقة top-2 gating، أرقام DeepSeek-V3 وMixtral، وموازنة المكاسب مقابل تكلفة الذاكرة، ومتى لا تستخدم MoE، مع مصادر.

5 دقائق قراءة

محترف11 يونيو 2026

Structured Outputs بـ Outlines للمحترف: JSON صحيح 100% من Llama 70B

لو production بتاعك بيكسر في 11% من responses عشان Llama رجّع JSON بـ trailing comma أو enum غلط، Constrained Decoding بيضمن JSON صحيح 100% بـ overhead 4-12ms/token بدون فقد جودة. دليل للمحترف بمثال السكة الحديد للمبتدئ، شرح Logit Masking عبر FSM من ورقة Willard & Louf 2023، كود Python شغّال على Outlines و Llama 3.1 70B، أرقام مقاسة على 4180 فاتورة عربية، 4 trade-offs خفية، ومتى Constrained Decoding مضيعة وقت.

6 دقائق قراءة

محترف25 مايو 2026

Speculative Decoding للمحترف: سرّع Llama 3.1 70B بـ 2.7× بدون خسارة دقة

لو بتدفع $4,800 شهرياً في inference Llama 3.1 70B على H100 وبتشتكي إن الـ TPS واقفة عند 42 توكن/ثانية لكل مستخدم، المشكلة مش في الـ GPU. Speculative Decoding بيخلّي نموذج 3B يقترح ونموذج 70B يتحقق بالتوازي، فيقفز TPS لـ 113 (2.7×) بنفس الـ logits بالظبط. دليل للمحترف بمثال الصحفي والمُحرر، شرح علمي من ورقة Leviathan 2023 (Google Research)، إعداد vLLM 0.6.5 شغّال، أرقام مقاسة (acceptance rate 0.74، latency من 510ms لـ 190ms)، 4 trade-offs خفية، ومتى Speculation overhead بدون فايدة.

7 دقائق قراءة

محترف25 مايو 2026

Speculative Decoding للمحترف: ضاعف سرعة Llama 3.1 70B بـ 2.4× بدون فقدان جودة

لو بتشغّل Llama 3.1 70B على H100 ومحتاج تنزّل الـ latency تحت 500ms للمستخدم، Speculative Decoding بيرفع الـ throughput من 24 إلى 58 token/sec بنموذج draft صغير. مقال للمحترف بمثال المحرر والمدقق اللغوي للمبتدئ، شرح علمي من ورقة Leviathan 2022 (Google) و Chen 2023 (DeepMind)، إعداد vLLM 0.6.3+ شغّال مع Llama-3.2-1B كـ draft، أرقام مقاسة على workload عربي حقيقي 2,800 طلب، 5 trade-offs خفية، ومتى الـ Speculative Decoding بيكون مضيعة memory.

7 دقائق قراءة