مقالات عملية مرتبة حسب المجال والمستوى، اختر المجال المناسب واقرأ من مستوى مبتدئ إلى محترف.
لو تطبيقك بيبعت نفس الـ system prompt الطويل آلاف المرات يومياً لـ Claude، أنت بتدفع نفس التوكنز كل مرة من غير داعي. Prompt Caching بيخلّي Anthropic تخزّن البريفكس على سيرفرها وترجعه بـ 10% من السعر و80% أقل في زمن أول توكن. شرح للمتوسط بمثال مكتب البريد للمبتدئ، تعريف علمي لـ KV cache والـ ephemeral storage، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة من فاتورة 2000 request/يوم، الفرق بين 5-min و 1-hour cache، trade-offs الـ writes الزيادة والـ ordering، وحالات لا تستخدم فيها الـ caching أصلاً.
لو بتبعت نفس المستند الطويل لـ Claude في كل طلب، Prompt Caching بينزّل تكلفة الـ input للجزء المُكاش لـ 10% فقط ويسرّع الرد بنسبة 80% على المتوسط. مقال للمستوى المتوسط بمثال مكتب الاستقبال للمبتدئ، تعريف علمي للـ cache_control و TTL، كود Python شغّال على Anthropic SDK، أرقام مقاسة من workload 200 طلب يومي، trade-offs الذاكرة والتكلفة الأولى، وحالات لازم تطفي الـ cache فيها أصلاً.
لو search box بتاعك بيستعلم على DB لكل حرف، الـ p95 latency بيعدّي 200ms على قاموس 5 ملايين كلمة. Trie في الذاكرة بينزّل ده لـ 80 ميكروثانية، 10000x أسرع. مقال للمتوسط بمثال خزانة الكروت للمبتدئ، تعريف علمي لـ rooted tree، كود Python 3.12 شغّال على __slots__، أرقام مقاسة بـ timeit، 4 استخدامات حقيقية، فخ استهلاك الذاكرة، trade-offs، وحالات لا تستخدمه فيها مع المصادر الرسمية.
لو حد عدّل A record لدومين شركتك الساعة 3 الصبح وأشار الـ IP لسيرفر مش بتاعك، الموقع ممكن يفضل بيخدم نسخة مزوّرة 6 ساعات قبل ما حد يلاحظ. هتتعلم في المقال ده تبني سكربت Python في 60 سطر مع GitHub Actions cron يومي بيكتشف أي تغيير في DNS records خلال 5 دقايق من حصوله، بصفر تكلفة شهرية على الـ free tier. مع كود شغّال على dnspython 2.6، YAML قابل للنسخ، أرقام مقاسة، trade-offs الـ Geo-DNS والـ multi-provider، وحالات لا تستخدم فيها هذه الطريقة أصلاً.
لو search box بيشتغل بـ LIKE 'q%' على 500 ألف صف، كل ضربة كيبورد بتدفع 4 مللي ثانية في الـ DB. Trie بينزّل الزمن ده لـ 18 ميكروثانية بدون أي DB call. شرح للمستوى المتوسط بمثال القاموس الورقي للمبتدئ، تعريف علمي دقيق للـ k-ary tree و prefix search في O(L)، كود Python 3.12 شغّال في 30 سطر، أرقام مقاسة فعلياً على 500 ألف كلمة، trade-offs الذاكرة، وحالات لا تستخدمه فيها.
لو search box بياخد 80 مللي ثانية يرجّع 10 اقتراحات من 5 مليون كلمة، المشكلة مش السيرفر. المشكلة إنك بتستخدم LIKE 'prefix%' بدل Trie. شرح للمستوى المتوسط بمثال درج المكتبة للمبتدئ، تعريف علمي دقيق لـ Retrieval Tree، كود Python 3.12 شغّال بـ __slots__، أرقام مقاسة بـ timeit على 5 مليون اسم منتج، trade-offs الذاكرة (480MB)، وحالات لا تستخدمه فيها مع Elasticsearch وBK-Tree.
لو حاولت تشغّل Llama 3 70B محلياً والـ GPU بتاعك 24GB، الموديل بيقولك "محتاج 140GB". Quantization بيقطع الذاكرة لـ 25% بفقدان أقل من نقطة على MMLU. مقال للمستوى المتوسط بمثال السوبرماركت للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود vLLM شغّال على RTX 4090، أرقام مقاسة من MMLU و HumanEval، trade-offs، وحالات لا تستخدم فيها الـ Quantization أصلاً.
لو فريقك بيعدّل في Google Sheets والـ DB محتاج يلحق التعديل، الـ cron كل 5 دقايق بيحرق quota وبيوصل التحديث متأخر. هنا pipeline يدفع التعديل من Sheets لـ PostgreSQL في 1.2 ثانية بدون polling، بـ Apps Script Trigger + FastAPI Webhook + HMAC، مع كود شغّال، أرقام مقاسة على 14 مستخدم متزامن، trade-offs، وحالات لا تستخدمه فيها.
لو موديل Llama 3.1 70B بيطلب 140GB ذاكرة وعندك GPU واحد بـ 48GB، Quantization بيقطع المتطلبات للربع — 35GB — مع خسارة دقة أقل من 1% على MMLU. مقال للمستوى المتوسط بمثال ضغط الصور للمبتدئ، تعريف علمي للـ AWQ و GPTQ، كود Python شغّال على transformers + AutoAWQ، أرقام مقاسة من ورقة AWQ 2024 و Hugging Face، trade-offs، وحالات لا تستخدم Quantization فيها أصلاً.