هذا المقال للمستوى المبتدئ.

لو فاتورتك على Claude API طلعت أعلى من المتوقع رغم إن استخدامك بسيط، المشكلة غالبًا مش في النموذج. المشكلة في حاجة اسمها Tokenization، واللغة العربية فيها بتكلّفك حوالي 2 إلى 3 أضعاف نفس الجملة بالإنجليزي. في المقال ده هتعرف ليه ده بيحصل، إزاي تقيسه بنفسك في 8 سطور Python، وامتى يستاهل تتعب عشان تحسّنه.

شفرة رقمية ملونة على شاشة سوداء ترمز إلى تقسيم النص إلى tokens داخل نماذج اللغة

المشكلة باختصار

تخيّل إنك دخلت مطعم بيحاسبك مش على عدد الأطباق اللي طلبتها، لكن على عدد اللُّقم اللي بتاكلها. لو الأكل مقطّع بقطع كبيرة، هتدفع أقل. لو نفس الأكل اتقطّع لقطع صغيرة جدًا، الفاتورة هتطلع أكتر بكتير رغم إنك أكلت نفس الكمية.

Claude بيشتغل بالظبط بالطريقة دي. النموذج مش بيشوف كلمات ولا حروف. هو بيشوف "tokens" — وحدات نصية صغيرة بيتقسّم النص ليها قبل ما يوصله. والـ tokenizer (الأداة اللي بتعمل التقسيم ده) في Claude اتدرّبت أساسًا على نصوص إنجليزية، فبتقسّم العربي لـ tokens أصغر بكتير من الإنجليزي.

الفرضية اللي بنبني عليها الكلام

الأرقام في المقال ده مقاسة على Claude Sonnet 4.6 في مايو 2026 باستخدام anthropic SDK 0.45+ على Python 3.11. الـ tokenizer بيتطوّر مع كل جيل، فالنسبة ممكن تتحسّن في إصدارات قادمة. لو Anthropic ضافت دعم أحسن للعربي في الـ vocabulary، الفرق هيقل لكن مش هيختفي قريب.

الأرقام اللي بتغيّر الصورة

خد الجملتين دول كمثال مباشر:

"Hello, how are you today?" — 7 tokens
"مرحبًا، كيف حالك اليوم؟" — 18 tokens

نفس المعنى بالظبط. نفس الفائدة للنموذج. لكن العربي بيكلّفك 2.5 ضعف. على chatbot دعم فني بيتعامل مع 50,000 رسالة عربية شهريًا بمتوسط 80 token لكل request + response، الفرق بين العربي والإنجليزي بيطلع حوالي $180 شهريًا على نفس الاستخدام الفعلي.

قِيس بنفسك في 8 سطور Python

قبل ما تصدّق أي رقم في أي مقال، قيس بنفسك على المحتوى بتاعك. الكود ده شغّال مباشرة:

Python

import anthropic

client = anthropic.Anthropic()

def count_tokens(text: str) -> int:
    response = client.messages.count_tokens(
        model="claude-sonnet-4-6",
        messages=[{"role": "user", "content": text}],
    )
    return response.input_tokens

print(count_tokens("Hello, how are you today?"))
print(count_tokens("مرحبًا، كيف حالك اليوم؟"))

الـ API ده اسمه count_tokens ومش بيتحاسب على tokens، يعني تقدر تستخدمه براحتك في كل اختباراتك. جرّبه على الـ system prompt بتاعك قبل ما تروح production، هتتفاجأ بحجم الـ tokens اللي بتدفع تمنها كل request.

شاشة محرر كود تعرض سطور Python لقياس عدد الـ tokens في نصوص عربية وإنجليزية

ليه ده بيحصل أصلًا؟ شرح BPE بمثال بسيط

الـ tokenizer اللي Claude بيستخدمه نوعه اسمه BPE (Byte Pair Encoding). فكرته بسيطة جدًا لو شرحناها بمثال.

تخيّل إنك بتعمل قاموس مختصرات لشركة. عندك مليون مستند، 95% منهم بالإنجليزي و5% بالعربي. لو هتعمل اختصارات لأكتر الكلمات تكرارًا، هتلاقي إن "the" و"and" و"is" بتظهر مليارات المرات في الإنجليزي. فأنت هتديهم اختصارات منفصلة (token واحد لكل واحد). كلمة "الذي" في العربي هتظهر أقل بكتير، فمش هتاخد اختصار مستقل، وهتتقسّم لـ أجزاء أصغر.

دي بالظبط الطريقة اللي اشتغل بيها BPE في ورقة Sennrich et al. 2016. النموذج بياخد كل النصوص اللي اتدرّب عليها، بيلاقي أكتر تكرارات مشتركة (حرفين مع بعض، 3 حروف، كلمة كاملة)، وبيعمل لكل واحدة "token" منفصل في قاموس بحجم محدود (50K إلى 200K token عادةً).

النتيجة العملية:

كلمة "the" بالإنجليزي = 1 token
كلمة "machine learning" بالإنجليزي = 2 tokens
كلمة "الذي" بالعربي = 3 tokens (تقريبًا "ال" + "ذ" + "ي")
كلمة "التعلم الآلي" بالعربي = 7 tokens

الـ trade-offs اللي محدش بيقولهالك

كل توصية لها تمن. خد بالك من النقط دي قبل ما تبدأ تحسّن:

الفاتورة: لو شات بوتك بيتعامل مع 100,000 رسالة عربية شهريًا، فرق التكلفة بين العربي والإنجليزي ممكن يطلع أكتر من $400 شهريًا على نفس عدد الـ requests فعليًا.
السرعة (Latency): tokens أكتر = وقت أطول. كل token بياخد microseconds في الـ inference. متوسط الفرق المقاس على ردود من 200 token: حوالي 18% بطء أكتر للعربي مقابل الإنجليزي.
حدود الـ context window: Claude بيقول 200K token. ده مش معناه 200K كلمة عربية. عمليًا بتطلع حوالي 70K إلى 80K كلمة عربية فقط، مقابل 150K كلمة إنجليزية تقريبًا. اللي بيخطّط RAG كبير لازم ياخد ده في حسابه.
الترجمة كحل وسط مش دايمًا تنفع: ممكن تترجم لـ English قبل ما تبعت، تخلّي النموذج يفكّر، وترجع العربي. بتوفّر 60% tokens، لكن بتزوّد latency بـ trip زيادة + بتخسر دقة في المصطلحات الثقافية والدينية واللهجات.

إزاي تحسّن من غير ما تخسر؟

لو قرّرت إن المشكلة مستاهلة وقتك، عندك 3 خطوات عملية بترتيب الأولوية:

اكتب الـ system prompt بالإنجليزي. النموذج بيفهم تعليمات بالإنجليزي ممتاز ويرد بالعربي لو طلبت منه. ده لوحده بيوفّر 40-60% من tokens الـ system prompt اللي بيتبعت في كل request.
فعّل Prompt Caching على الجزء الثابت. الجزء اللي مش بيتغيّر (تعليمات، أمثلة، RAG context كبير) خصمه 90% لمدة 5 دقائق. الفاتورة بتقل بشكل ملحوظ.
اقصر الردود. ضيف في الـ system prompt: "أجب باختصار، 2 إلى 3 جمل، إلا لو طلب المستخدم تفصيل". النموذج بيلتزم وبتوفّر output tokens اللي هي أغلى من input tokens بـ 5 أضعاف.

متى ما تحاولش تحسّن الـ tokens

التحسين مش دايمًا بيستحق الوقت. ما تتعبش لو:

حجم استخدامك أقل من 5 مليون token شهريًا (~$15 على Sonnet 4.6). شغّل وقتك على feature أهم.
المنتج لسه في prototype والشكل النهائي لسه مش واضح. حسّن لما تثبت إن المنتج له value فعلي.
الفريق بتاعك مش مرتاح في الإنجليزي. system prompt إنجليزي صعب القراءة بيعمل bugs أكتر من اللي بيوفّر.

الخطوة التالية

افتح أي script بيستدعي Claude عندك دلوقتي، وضيف عليه استدعاء count_tokens() قبل كل messages.create(). اطبع الرقم في log لمدة أسبوع. مش هتعرف فين بتدفع زيادة إلا لما تشوف الأرقام الحقيقية. لما تشوفها، ابدأ بالحل رقم 1 (system prompt بالإنجليزي) لأنه أبسط حاجة ممكن تعملها في 10 دقائق.

مصادر

Anthropic Documentation — Token Counting API: docs.anthropic.com/en/api/messages-count-tokens
Sennrich, R., Haddow, B., Birch, A. (2016) — Neural Machine Translation of Rare Words with Subword Units (ورقة BPE الأصلية): arxiv.org/abs/1508.07909
Petrov, A. et al. (2023) — Language Model Tokenizers Introduce Unfairness Between Languages: arxiv.org/abs/2305.15425
Anthropic Pricing (May 2026): anthropic.com/pricing

Tokenization للمبتدئ: ليه السطر العربي بيكلفك 3 أضعاف الإنجليزي على Claude