المدونة

مقالات ودروس مجانية تساعدك في رحلتك التعليمية — من أساسيات البرمجة إلى أحدث التقنيات.

الكل DevOps بالعربي How To Make It Optimizing بالعربي أحدث أخبار التكنولوجيا الأوتوميشن البرمجة بالعربي الذكاء الاصطناعي

٨ مايو ٢٠٢٦

Quantization للمستوى المتوسط: شغّل Llama 3 70B على GPU 24GB بدل 140GB

لو حاولت تشغّل Llama 3 70B محلياً والـ GPU بتاعك 24GB، الموديل بيقولك "محتاج 140GB". Quantization بيقطع الذاكرة لـ 25% بفقدان أقل من نقطة على MMLU. مقال للمستوى المتوسط بمثال السوبرماركت للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود vLLM شغّال على RTX 4090، أرقام مقاسة من MMLU و HumanEval، trade-offs، وحالات لا تستخدم فيها الـ Quantization أصلاً.

⏱ 7 دقائق قراءة

٨ مايو ٢٠٢٦

Quantization للمتوسط: شغّل LLM بـ 70 مليار باراميتر على GPU واحد بـ 35GB

لو موديل Llama 3.1 70B بيطلب 140GB ذاكرة وعندك GPU واحد بـ 48GB، Quantization بيقطع المتطلبات للربع — 35GB — مع خسارة دقة أقل من 1% على MMLU. مقال للمستوى المتوسط بمثال ضغط الصور للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود Python شغّال على transformers + AutoAWQ، أرقام مقاسة من ورقة AWQ 2024 و Hugging Face، trade-offs، وحالات لا تستخدم Quantization فيها أصلاً.

⏱ 6 دقائق قراءة

٨ مايو ٢٠٢٦

Quantization 4-bit للمتوسط: Llama 70B على A100 واحد بدل 4 GPUs

لو حاولت تشغّل Llama 3.1 70B لقيت إنه محتاج 140GB ذاكرة و4 كروت A100. NF4 Quantization بينزّله لـ40GB وA100 واحد بفقد 0.5% فقط في MMLU. مقال للمتوسط بمثال ضغط الصورة من 16 مليون لون لـ256، شرح علمي للـNormalFloat 4 من ورقة Tim Dettmers (NeurIPS 2023)، كود Python شغّال على bitsandbytes + transformers، أرقام مقاسة (perplexity, MMLU, tok/s)، 4 trade-offs حقيقية، وحالات لازم تتجنّب فيها NF4.

⏱ 6 دقائق قراءة

٨ مايو ٢٠٢٦

Speculative Decoding للمحترف: ازاي تخلّي LLM يرد 3x أسرع بدون ما تخسر دقة

لو inference الـ Llama 3 70B بياخد 8 ثواني والمستخدم بيقفل التاب، Speculative Decoding بيقطع الزمن للنص بنفس الموديل ونفس الجودة. الفكرة: موديل صغير سريع بيخمّن، موديل كبير بيتأكد بالتوازي. مقال للمحترف بمثال الكاشير للمبتدئ، التعريف العلمي الدقيق للـ acceptance probability من ورقة DeepMind 2023، كود vLLM 0.6+ شغّال، أرقام مقاسة على H100 (24 → 71 توكن/ثانية)، trade-offs الذاكرة والـ batching، وحالات لا تستخدم فيها التقنية أصلاً.

⏱ 6 دقائق قراءة

٧ مايو ٢٠٢٦

Tokenization للمبتدئ: ليه نفس الكلام بالعربي بيتكلف 3x من الإنجليزي على Claude

لو حسبت فاتورة Claude الشهرية بالعربي ولقيتها 3 أضعاف نفس الـ workload بالإنجليزي، السبب مش زيادة في السعر. السبب مفهوم اسمه Tokenization. مقال للمبتدئ بمثال قطع الليجو، تعريف علمي للـ Byte-Pair Encoding، كود Python شغّال على Anthropic SDK يقيس الفرق، أرقام مقاسة من 500 سؤال إنتاج، 4 خطوات توفير عملية، trade-offs، وحالات لا يستحق الموضوع فيها وقتك أصلاً.

⏱ 6 دقائق قراءة

٧ مايو ٢٠٢٦

Hybrid Search للمحترف: ادمج BM25 مع Dense Embeddings وارفع دقة الاسترجاع لـ 96%

لو الـ RAG بتاعك بيفشل في الأسئلة اللي فيها رقم منتج أو UUID أو اسم خطأ تقني، Dense search لوحده مش كفاية. Hybrid Search بيدمج BM25 مع Embeddings عبر Reciprocal Rank Fusion ويرفع الاسترجاع من 78% لـ 96% على BEIR. مقال للمحترف بمثال أمين المكتبة للمبتدئ، تعريف علمي للـ RRF، كود Python شغّال على rank_bm25 + sentence-transformers، أرقام مقاسة، trade-offs، وحالات لا تستخدمه فيها.

⏱ 7 دقائق قراءة

٧ مايو ٢٠٢٦

Mixture of Experts للمتوسط: ليه DeepSeek 671B سريع زي 37B

لو موديل بـ 671 مليار باراميتر بيرد عليك بنفس سرعة موديل 37 مليار، السبب مش تحسين عشوائي. السبب معمارية اسمها Mixture of Experts بتفعّل 5% بس من الموديل لكل توكن. مقال للمستوى المتوسط بمثال المستشفى للمبتدئ، تعريف علمي للراوتر و Top-K Gating، كود PyTorch شغّال يبني MoE Layer من الصفر، أرقام مقاسة من DeepSeek V3 و Mixtral 8x7B، trade-offs الذاكرة، وحالات لا تنفع فيها MoE.

⏱ 6 دقائق قراءة

٥ مايو ٢٠٢٦

Batch API في Claude للمتوسط: ادفع 50% أقل لمعالجة آلاف الأسئلة غير العاجلة

لو بتعالج 10,000 طلب يومي على Claude بتكلفة $300، Batch API بيقطع الفاتورة للنص — $150 — على نفس الموديل وبنفس الجودة. الثمن: تنتظر لحد 24 ساعة بدل ثواني. مقال للمستوى المتوسط بمثال مكتب البريد للمبتدئ، تعريف علمي دقيق، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة على workload 24,000 تذكرة دعم، trade-offs، ومتى لا تستخدمه.

⏱ 5 دقائق قراءة

٥ مايو ٢٠٢٦

Reranking في RAG: ازاي ترفع دقة الاسترجاع من 62% لـ 91% بإضافة طبقة واحدة

لو الـ RAG بتاعك بيرجع 5 مستندات والإجابة الصح ترتيبها 4 أو 5، الموديل بيتجاهلها وبيرد من الأولين. Reranking بيحل ده بطبقة Cross-Encoder بتعيد الترتيب قبل ما السياق يوصل للموديل. مقال للمستوى المتوسط بمثال السوبرماركت للمبتدئ، تعريف علمي لـ Bi-Encoder مقابل Cross-Encoder، كود Python شغّال على bge-reranker-v2-m3، أرقام BEIR وأرقام إنتاج (62% → 91%)، trade-offs الـ latency، وحالات لا تستخدم Reranking فيها.

⏱ 5 دقائق قراءة

مدونة أحمد حايس

💡

ملخص سريع

مدونة أحمد حايس تجيب عن أسئلة مثل كيف أتعلم البرمجة أو التكنولوجيا أو الذكاء الاصطناعي، وتحوّل المفاهيم التقنية إلى مقالات عربية عملية واضحة.

الأسئلة الشائعة

كيف أتعلم التكنولوجيا أو البرمجة من المقالات؟+