مقالات ودروس مجانية تساعدك في رحلتك التعليمية — من أساسيات البرمجة إلى أحدث التقنيات.
لو سألت ChatGPT عن "هرّة" وفهم إنك بتسأل عن قطة، السبب مش سحر. السبب مفهوم اسمه Embeddings بيحوّل الكلام لأرقام في فضاء متعدد الأبعاد. مقال للمبتدئ بمثال خرايط جوجل، تعريف علمي للـ vector space، كود Python شغّال على sentence-transformers، أرقام مقاسة، trade-offs، ومتى لا تستخدمه.
لو بتبعت لـ Claude نفس system prompt بـ 8000 توكن مع كل request، إنت بتدفع تكلفة التوكنز دي 1000 مرة في اليوم بدون داعي. Prompt Caching بيخلّيك تدفع 25% من السعر بس على أول request، و10% بس على الـ requests اللي بعدها لمدة 5 دقايق. شرح للمستوى المتوسط بمثال أمين المكتبة للمبتدئ، تعريف علمي دقيق من توثيق Anthropic، كود Python شغّال على anthropic SDK 0.40+، أرقام مقاسة على 1000 سؤال (89.9% توفير)، 4 trade-offs حقيقية، وحالات لا تستخدم Caching فيها.
لو الـ agent بتاعك بيرسل system prompt حجمه 35 KB في كل طلب، الموديل بيقراه من الصفر وبتدفع كامل التوكنز. Prompt Caching بيحفظ الجزء الثابت على سيرفر Anthropic ويعيد استخدامه بسعر 10% وزمن TTFT أقل بـ 4x. مقال للمحترف بمثال الكاشير للمبتدئ، تعريف علمي للـ KV cache، كود Python شغّال على Anthropic SDK، أرقام مقاسة من إنتاج (88% انخفاض الفاتورة)، trade-offs الـ cache invalidation، وحالات لا يستحق فيها التفعيل.
لو فاتورة Anthropic عندك بتعدّي $800 شهريًا وأكتر من 70% بتروح في إعادة إرسال نفس system prompt الطويل، Prompt Caching بسطر cache_control بينزّل الفاتورة لـ $80 على نفس الـ workload. مقال للمتوسط بمثال دروس المنهج للمبتدئ، تعريف علمي للـ KV cache و TTL، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة من workload 8000 request يومي، 4 trade-offs، ومتى لا تستخدمه.
لو تطبيقك بيبعت نفس الـ system prompt الطويل آلاف المرات يومياً لـ Claude، أنت بتدفع نفس التوكنز كل مرة من غير داعي. Prompt Caching بيخلّي Anthropic تخزّن البريفكس على سيرفرها وترجعه بـ 10% من السعر و80% أقل في زمن أول توكن. شرح للمتوسط بمثال مكتب البريد للمبتدئ، تعريف علمي لـ KV cache والـ ephemeral storage، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة من فاتورة 2000 request/يوم، الفرق بين 5-min و 1-hour cache، trade-offs الـ writes الزيادة والـ ordering، وحالات لا تستخدم فيها الـ caching أصلاً.
لو شغّلت Llama 3 70B على A100 80GB ولقيت السيرفر بيرفض الطلب رقم 16، الموديل مش هو اللي بياكل الذاكرة. KV Cache هو، وبيهدر 60-80% منها في تجزئة. PagedAttention في vLLM بترفع الإنتاجية 8x. مقال للمحترف بشرح علمي دقيق، كود vLLM 0.7+ شغّال، أرقام من ورقة Kwon et al. SOSP 2023.
لو تطبيقك بيبعت نفس الـ system prompt الطويل مع كل request، أنت بتدفع 100% كل مرة بلا داعي. Prompt Caching بيقطع التكلفة لـ 10% والـ time-to-first-token من 2.1 ثانية لـ 0.32. مقال للمحترف بمثال الكاشير للمبتدئ، تعريف علمي للـ KV Cache Persistence، كود Python شغّال على Anthropic SDK، أرقام مقاسة من إنتاج 18,000 طلب يومي، 4 trade-offs حقيقية، وحالات لا تستخدمه فيها أصلاً.
لو بتبعت نفس المستند الطويل لـ Claude في كل طلب، Prompt Caching بينزّل تكلفة الـ input للجزء المُكاش لـ 10% فقط ويسرّع الرد بنسبة 80% على المتوسط. مقال للمستوى المتوسط بمثال مكتب الاستقبال للمبتدئ، تعريف علمي للـ cache_control و TTL، كود Python شغّال على Anthropic SDK، أرقام مقاسة من workload 200 طلب يومي، trade-offs الذاكرة والتكلفة الأولى، وحالات لازم تطفي الـ cache فيها أصلاً.
لو سألت Claude عن سياسة شركة ورد عليك بكلام معقول لكن ما تعرفش من فين، Citations API بيخلي كل جملة معاها مصدرها الحرفي من ملفك. مقال للمبتدئ بمثال محمد طالب الثانوية، تعريف علمي للـ content blocks، كود Python شغّال على Anthropic SDK 0.40+، أرقام مقاسة من إنتاج (هلوسة من 11% إلى 0.6%)، trade-offs، ومتى لا تستخدمه.
مدونة أحمد حايس تجيب عن أسئلة مثل كيف أتعلم البرمجة أو التكنولوجيا أو الذكاء الاصطناعي، وتحوّل المفاهيم التقنية إلى مقالات عربية عملية واضحة.