لو بتستخدم Claude أو Gemini في تطبيق إنتاج، القرار اللي اتخذ الأسبوع ده هيمس حساب الـ API بتاعك خلال 6 شهور. Google أعلنت Ironwood TPU في Google Cloud Next 2026، Anthropic أكدت استهلاك حتى مليون شريحة TPU على مراحل، وMeta دخلت بصفقة تأجير متعددة المليارات. الخلاصة مش "هاجر من Nvidia"، الخلاصة بالظبط: سعر الـ inference اللي انت بتدفعه هيقع، بس مش على كل النماذج بنفس القدر.
عصر الـ Inference بدأ: Ironwood وصفقة Anthropic وإيه معناها ليك
المشكلة باختصار
لحد أبريل 2026، شرائح Nvidia من نوع H100 وB200 كانت الـ default لأي حد عايز يشغّل LLM في الإنتاج. السعر؟ حوالي 2 إلى 4 دولار للساعة الواحدة لـ H100 على بنية تحتية عامة، وأعلى من كدا بكتير لما الطلب يعلى. النتيجة إن كل تطبيق شغّال بـ API بيدفع "ضريبة Nvidia" ضمنيًا جوّه سعر التوكن. Google Ironwood غيّرت المعادلة: شريحة مصممة تحديدًا للـ inference مش للـ training، وAnthropic وقّعت على ~400 ألف شريحة في المرحلة الأولى كجزء من خطة تصل لمليون.
مثال بسيط: Inference مقابل Training
تخيّل إنك فتحت مطعم. في الأول لازم تدرّب الطباخ على الوصفات: ده بياخد شهور، تجارب كتير، ومعدّات ضخمة في المطبخ. ده بالظبط الـ training. بعد كدا الزبون بيدخل ويطلب أكل جاهز: الطباخ بيطبخ الطلب بسرعة من وصفة هو متدرّب عليها. ده الـ inference. الخطوتين شغل مختلف تمامًا: الـ training بياخد أيام أو أسابيع مرة واحدة، والـ inference بيحصل ملايين المرات في الثانية لما التطبيق شغّال.
بشكل تقني: training هو عملية تحديث أوزان النموذج (weights) عن طريق backpropagation على مليارات الأمثلة، وبتحتاج عرض ذاكرة ضخم وdouble precision أحيانًا. inference هو تمرير forward بس على أوزان ثابتة، غالبًا بدقة أقل (INT8 أو FP8)، والتحدي الأكبر هو latency والـ throughput مش الدقة العددية. علشان كدا تصميم شريحة واحدة للاتنين بيبقى compromise — Ironwood بتتخصّص في الشغل الثاني بس.
الأرقام اللي تفرق في قرارك
- سعة Anthropic الجديدة: ~3.5 جيجاواط من قدرة الحوسبة تبدأ 2027. ده رقم أكبر من استهلاك مدن صغيرة كاملة.
- حجم الصفقة المالية: Anthropic ملتزمة بعشرات المليارات، والمرحلة الأولى وحدها ~$10B على 400,000 شريحة TPUv7 Ironwood عبر Broadcom.
- الفرق في الأداء: Ironwood بتدّي 10× من TPU v5p في peak performance، و~4× تحديدًا في مهام الـ inference، مع 192GB من ذاكرة HBM3E لكل شريحة.
- الأثر المتوقّع على السعر: التقدير إن تكلفة التوكن في الـ inference هتنزل 20 إلى 40% خلال 6–12 شهر، مبني على مقارنة بموجة التخفيضات اللي حصلت لما Google نقلت Gemini على TPU v5p سنة 2024.
الافتراض هنا: Anthropic وGoogle وMeta مش هيمرروا كل التوفير على المستخدم النهائي على طول. الهامش الربحي هيتوسع الأول، وبعدين الأسعار الرسمية على Claude API وGemini API تنزل تدريجيًا تحت ضغط المنافسة.
ليه Anthropic اختارت TPU مش Nvidia فقط؟
مش علشان TPU أحسن في كل حاجة. Anthropic ماشية باستراتيجية متعدّدة الشرائح واضحة: TPU على Google Cloud، Trainium على AWS، وNvidia على بنية تحتية مختلطة. الـ trade-off صريح:
- TPU (Ironwood): أفضل نسبة سعر/أداء للـ inference على مقاييس كبيرة. التكلفة الخفية: إعادة تحسين الموديل على XLA، وvendor lock-in على Google.
- Nvidia (B200, H200): بيئة CUDA ناضجة وأي موديل مفتوح شغّال فورًا. التكلفة: سعر أعلى وتوفّر ضيّق في الأسواق.
- AWS Trainium: تكلفة أقل من Nvidia بنسبة 30–40% حسب أرقام AWS الرسمية، بس أداء الـ training أقل وأدوات الـ tooling لسه أقل نضجًا.
القرار لـ Anthropic مش "مين أحسن"، القرار إنه علشان تشغّل Claude على أكثر من مليار طلب يوميًا لازم تنوّع مورّدين. vendor lock-in هيقتلك لما السعر يرتفع أو العرض يقلّ.
إيه المفروض تعمله انت كمطوّر
لو تطبيقك شغّال بـ Claude API أو Gemini API، ده اللي بالظبط تعمله:
- ما تهاجرش ستاك كامل دلوقتي. البنية التحتية بتاعتك مش هتلمس Ironwood مباشرة. اللي هيفرق معاك هو سعر التوكن بعد 6 شهور.
- ابدأ تسجّل تكلفة الـ inference لكل طلب. لو مش بتقيس، مش هتعرف لما الأسعار تنزل. ابنِ لوحة بسيطة بـ cost_per_1k_tokens على الـ API بتاعك.
- لو بتشغّل موديل مفتوح على GPU خاص: قارن تكلفتك الشهرية مع Gemini Flash أو Claude Haiku على نفس حجم الطلبات. مع Ironwood، الـ managed APIs هتبقى أرخص لحالات استخدام كتير.
مثال قياس مباشر على Claude API:
# قياس استهلاك التوكن والتكلفة لكل طلب
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{
"model": "claude-sonnet-4-6",
"max_tokens": 1024,
"messages": [{"role": "user", "content": "مرحبا"}]
}' | jq '.usage'
# output:
# {"input_tokens": 10, "output_tokens": 8}
# الحساب:
# cost = (input_tokens / 1_000_000) * 3 + (output_tokens / 1_000_000) * 15
# = 10/1M * 3 + 8/1M * 15 = 0.00015$
سجّل الرقم ده في Postgres أو حتى CSV مع timestamp وendpoint. في شهر هيبقى عندك baseline تعرف منه لما السعر فعلاً ينزل.
متى لا تتبنى هذه الاستراتيجية
لو تطبيقك شغّال على أقل من 100 ألف طلب شهريًا، الحوار ده مش يخصّك. الفرق في سعر التوكن على الأحجام الصغيرة غير محسوس عمليًا؛ لو بتدفع 20 دولار شهريًا، حتى لو السعر نزل 40%، هيبقى 12 دولار. ده مش قرار عمل، ده ضوضاء. ركّز على جودة الإجابات وسرعة الاستجابة، مش على السعر.
كمان لو بتشغّل موديل open-source متخصّص (زي Llama 70B مع fine-tuning على بياناتك) على H100 من RunPod أو Lambda، الترحيل لـ Gemini أو Claude managed APIs مش قرار تكلفة بس. ده قرار بتخسر فيه التحكم في الـ weights وقدرتك على الـ fine-tuning. TPU lock-in ليه تكلفة خفية اسمها "مش قادر تنقل الموديل بتاعك لحتة تانية لما تحب".
الخطوة التالية
ضيف سطر واحد في الـ logging layer بتاعك النهاردة: احفظ tokens_input وtokens_output وmodel_name وlatency_ms لكل طلب. في شهر هيبقى عندك بيانات حقيقية تقرر منها لما أسعار الـ API تتحرك. مش محتاج dashboard بفخفخة؛ جدول Postgres واحد أو ملف CSV كافي جدًا في البداية.
المصادر
- Anthropic — Expanding our use of Google Cloud TPUs and Services (anthropic.com/news)
- VentureBeat — Google debuts AI chips with 4X performance boost, secures Anthropic megadeal worth billions
- Data Center Dynamics — Google and Anthropic confirm massive 1GW+ cloud deal with up to one million Google TPUs
- TechCrunch — Anthropic ups compute deal with Google and Broadcom amid skyrocketing demand (7 أبريل 2026)
- The Next Web — Google assembles four-partner chip supply chain with Broadcom, MediaTek, Marvell to challenge Nvidia in inference
- Business Today — How Google is quietly expanding its AI hardware ecosystem to take on Nvidia (20 أبريل 2026)