مقالات ودروس مجانية تساعدك في رحلتك التعليمية — من أساسيات البرمجة إلى أحدث التقنيات.
لو حاولت تشغّل Llama 3 70B محلياً والـ GPU بتاعك 24GB، الموديل بيقولك "محتاج 140GB". Quantization بيقطع الذاكرة لـ 25% بفقدان أقل من نقطة على MMLU. مقال للمستوى المتوسط بمثال السوبرماركت للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود vLLM شغّال على RTX 4090، أرقام مقاسة من MMLU و HumanEval، trade-offs، وحالات لا تستخدم فيها الـ Quantization أصلاً.
لو موديل Llama 3.1 70B بيطلب 140GB ذاكرة وعندك GPU واحد بـ 48GB، Quantization بيقطع المتطلبات للربع — 35GB — مع خسارة دقة أقل من 1% على MMLU. مقال للمستوى المتوسط بمثال ضغط الصور للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود Python شغّال على transformers + AutoAWQ، أرقام مقاسة من ورقة AWQ 2024 و Hugging Face، trade-offs، وحالات لا تستخدم Quantization فيها أصلاً.
لو حاولت تشغّل Llama 3.1 70B لقيت إنه محتاج 140GB ذاكرة و4 كروت A100. NF4 Quantization بينزّله لـ40GB وA100 واحد بفقد 0.5% فقط في MMLU. مقال للمتوسط بمثال ضغط الصورة من 16 مليون لون لـ256، شرح علمي للـNormalFloat 4 من ورقة Tim Dettmers (NeurIPS 2023)، كود Python شغّال على bitsandbytes + transformers، أرقام مقاسة (perplexity, MMLU, tok/s)، 4 trade-offs حقيقية، وحالات لازم تتجنّب فيها NF4.
لو inference الـ Llama 3 70B بياخد 8 ثواني والمستخدم بيقفل التاب، Speculative Decoding بيقطع الزمن للنص بنفس الموديل ونفس الجودة. الفكرة: موديل صغير سريع بيخمّن، موديل كبير بيتأكد بالتوازي. مقال للمحترف بمثال الكاشير للمبتدئ، التعريف العلمي الدقيق للـ acceptance probability من ورقة DeepMind 2023، كود vLLM 0.6+ شغّال، أرقام مقاسة على H100 (24 → 71 توكن/ثانية)، trade-offs الذاكرة والـ batching، وحالات لا تستخدم فيها التقنية أصلاً.
لو حسبت فاتورة Claude الشهرية بالعربي ولقيتها 3 أضعاف نفس الـ workload بالإنجليزي، السبب مش زيادة في السعر. السبب مفهوم اسمه Tokenization. مقال للمبتدئ بمثال قطع الليجو، تعريف علمي للـ Byte-Pair Encoding، كود Python شغّال على Anthropic SDK يقيس الفرق، أرقام مقاسة من 500 سؤال إنتاج، 4 خطوات توفير عملية، trade-offs، وحالات لا يستحق الموضوع فيها وقتك أصلاً.
لو الـ RAG بتاعك بيفشل في الأسئلة اللي فيها رقم منتج أو UUID أو اسم خطأ تقني، Dense search لوحده مش كفاية. Hybrid Search بيدمج BM25 مع Embeddings عبر Reciprocal Rank Fusion ويرفع الاسترجاع من 78% لـ 96% على BEIR. مقال للمحترف بمثال أمين المكتبة للمبتدئ، تعريف علمي للـ RRF، كود Python شغّال على rank_bm25 + sentence-transformers، أرقام مقاسة، trade-offs، وحالات لا تستخدمه فيها.
لو موديل بـ 671 مليار باراميتر بيرد عليك بنفس سرعة موديل 37 مليار، السبب مش تحسين عشوائي. السبب معمارية اسمها Mixture of Experts بتفعّل 5% بس من الموديل لكل توكن. مقال للمستوى المتوسط بمثال المستشفى للمبتدئ، تعريف علمي للراوتر و Top-K Gating، كود PyTorch شغّال يبني MoE Layer من الصفر، أرقام مقاسة من DeepSeek V3 و Mixtral 8x7B، trade-offs الذاكرة، وحالات لا تنفع فيها MoE.
لو بتعالج 10,000 طلب يومي على Claude بتكلفة $300، Batch API بيقطع الفاتورة للنص — $150 — على نفس الموديل وبنفس الجودة. الثمن: تنتظر لحد 24 ساعة بدل ثواني. مقال للمستوى المتوسط بمثال مكتب البريد للمبتدئ، تعريف علمي دقيق، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة على workload 24,000 تذكرة دعم، trade-offs، ومتى لا تستخدمه.
لو الـ RAG بتاعك بيرجع 5 مستندات والإجابة الصح ترتيبها 4 أو 5، الموديل بيتجاهلها وبيرد من الأولين. Reranking بيحل ده بطبقة Cross-Encoder بتعيد الترتيب قبل ما السياق يوصل للموديل. مقال للمستوى المتوسط بمثال السوبرماركت للمبتدئ، تعريف علمي لـ Bi-Encoder مقابل Cross-Encoder، كود Python شغّال على bge-reranker-v2-m3، أرقام BEIR وأرقام إنتاج (62% → 91%)، trade-offs الـ latency، وحالات لا تستخدم Reranking فيها.
مدونة أحمد حايس تجيب عن أسئلة مثل كيف أتعلم البرمجة أو التكنولوجيا أو الذكاء الاصطناعي، وتحوّل المفاهيم التقنية إلى مقالات عربية عملية واضحة.