Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

المستوى: مبتدئ

لو فتحت شات طويل مع Claude أو ChatGPT، وبعد ساعة لقيت الموديل نسي التعليمات اللي قلتها له في الأول، المشكلة مش إن النموذج "كسلان". المشكلة في حد فيزيائي اسمه Context Window. المقال ده هيخليك تفهم بالظبط يعني إيه، ليه موجود، وإزاي تتعامل معاه بدل ما تتفاجأ بيه.

المشكلة باختصار

أي نموذج لغوي كبير (LLM) بيقدر يقرا كمية محدودة من النص في المرة الواحدة. لو بعتّله أكتر من الحد ده، الكلام القديم بيتقطع أو بيرجع رسالة خطأ. الناس اللي مش فاهمة الفكرة دي بتفتكر إن الموديل "بينسى"، والحقيقة إنه ببساطة ما شافش الجزء ده أصلاً.

رسم تجريدي يمثل نموذج ذكاء اصطناعي يعالج تدفق نصي طويل من الرموز ضمن نافذة سياق محدودة

تخيل سبورة مدرسية

قبل ما ندخل في التعريف العلمي، خد المثال ده. تخيل إنك مدرس عندك سبورة بتسع 50 سطر. كل ما تكتب سطر جديد، لازم السبورة تستوعبه. لما توصل للسطر رقم 51، عندك خياران: إما تمسح من الأول، أو تقول للطالب "كملنا في سبورة تانية". الموديل عنده نفس المشكلة بالظبط، بس "السبورة" بتاعته اسمها Context Window، ووحدة القياس مش سطور، وحدة القياس توكن (token).

التوكن مش بالضبط كلمة. هو قطعة صغيرة من الكلمة. كلمة "البرمجة" بالعربي بتتقسم لحوالي 3 توكنز عند Claude، لإن الـ tokenizer مدرّب أساسًا على إنجليزي. كلمة "programming" بالإنجليزي بتاخد توكن واحد بس.

التعريف العلمي بدون لف

Context Window هو الحد الأقصى لعدد التوكنز اللي ممكن النموذج يعالجها في طلب واحد. ده بيشمل ثلاث حاجات مع بعض:

System prompt: التعليمات اللي بتقول للموديل يتصرف إزاي.
Conversation history: كل الرسائل السابقة في نفس الشات.
Output: الرد اللي الموديل بيولّده دلوقتي.

المجموع لازم يبقى أصغر من حد الـ context window. لو زاد، الموديل بيتجاهل الجزء الأقدم تلقائيًا، أو الـ API بيرفض الطلب كله.

ليه الحد ده موجود أصلًا؟

السبب الجذري ميكانيكي بحت. الـ Transformer architecture اللي معمول بيها كل الموديلات الحديثة بتستخدم آلية اسمها self-attention. الآلية دي بتقارن كل توكن بكل توكن تاني في النص. ده معناه إن لو عندك n توكن، لازم تعمل n × n مقارنة. الكلام ده اسمه complexity تربيعية أو O(n²).

الفرق بيبان بسرعة. لو ضاعفت عدد التوكنز من 1000 لـ 2000، التكلفة الحسابية بتبقى أربع أضعاف، مش مرتين. ولو وصلت لمليون توكن، الذاكرة المطلوبة بتقفز لمستوى السيرفر التجاري الكبير، ومينفعش يشتغل على لابتوب عادي.

أرقام موديلات 2026 الفعلية

الأرقام دي محدثة لسنة 2026 ومأخوذة من توثيق Anthropic الرسمي وOpenAI:

Claude Opus 4.7 و Sonnet 4.6: 1,000,000 توكن (مليون). أُتيحت بشكل عام في 13 مارس 2026.
Claude Haiku 4.5: 200,000 توكن.
GPT-4o: 128,000 توكن.
Gemini 2.5 Pro: حتى 2,000,000 توكن في إصدارات معينة.

للمقارنة العملية: مليون توكن تقريبًا = 750,000 كلمة إنجليزية = حوالي 1,500 صفحة من كتاب عادي. بس خد بالك إن في claude.ai (الواجهة) كل الموديلات محدودة عند 200,000 توكن، حتى لو الموديل نفسه بيدعم مليون. المليون متاح في API و Claude Code فقط.

رسم بياني يوضح نمو تكلفة الحوسبة بشكل تربيعي مع زيادة عدد التوكنز في نافذة السياق

إزاي تعرف نصك بياخد كام توكن؟

قبل ما تبعت أي طلب، حاجة عملية تعرف بيها حجم نصك. الكود ده بيستخدم Anthropic SDK ويرجّع لك العدد الفعلي:

Python

from anthropic import Anthropic

client = Anthropic()

text = """
ضع هنا أي نص عربي أو إنجليزي طويل.
الكود هيرجّعلك عدد التوكنز الفعلي
اللي هيدخل لنافذة السياق.
"""

response = client.messages.count_tokens(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": text}],
)

print(f"عدد التوكنز: {response.input_tokens}")

قاعدة تقريبية تنفعك من غير API: قسّم عدد حروف نصك العربي على 2.5 وهتطلع تقدير قريب جدًا للعدد الحقيقي.

إزاي تتعامل مع الحد العملي؟

فيه ثلاث استراتيجيات شائعة، وكل واحدة فيها ثمن:

Truncation (القص): تشيل أقدم رسائل من الشات قبل ما تبعت الطلب. التكلفة: ممكن تخسر سياق مهم. المكسب: بسيط ورخيص.
Summarization (التلخيص): كل ما الشات يطول، تطلب من الموديل يلخّص آخر 20 رسالة في رسالة واحدة. التكلفة: طلب إضافي يومي + احتمال خسارة تفاصيل دقيقة. المكسب: بتحافظ على المعنى العام.
RAG (Retrieval-Augmented Generation): تحط النصوص في قاعدة بيانات متجهات، وتجيب اللي يخص السؤال الحالي بس. التكلفة: بنية تحتية أكتر. المكسب: ممكن تشتغل على ملايين الكلمات.

القاعدة العملية: تحت 50,000 توكن، اعتمد على الـ context window مباشرةً. فوق كده، فكّر في RAG.

متى لا يهمك حجم الـ Context Window؟

لو شغلك كله طلبات قصيرة (شات بسيط، تصنيف نص، توليد عناوين، ترجمة فقرة)، الفرق بين موديل بـ 200K وموديل بـ 1M صفر بالنسبالك. أكتر من 95% من الاستخدامات اليومية بتحصل في أول 8000 توكن من الطلب. اللي محتاج فعلاً المليون: تحليل ملفات قانونية ضخمة، كود بيس كامل، أو وثائق طبية متعددة.

الخطوة التالية

افتح آخر شات طويل عملته مع Claude أو ChatGPT. خد آخر سؤالك ولصقه على platform.openai.com/tokenizer أو شغّل كود الـ count_tokens فوق. هتتفاجأ غالبًا إنك بتبعت 30,000 توكن في كل طلب من غير ما تحس. لو الرقم ده في كل رسالة، فاتورتك الشهرية بتتضاعف من غير سبب حقيقي.

المصادر

Anthropic. Context windows. platform.claude.com/docs/en/build-with-claude/context-windows
Anthropic. Models overview. platform.claude.com/docs/en/about-claude/models/overview
Anthropic. How large is the context window on paid Claude plans? support.claude.com
Vaswani et al. Attention Is All You Need. arXiv:1706.03762.
PatSnap. Sparse attention cuts transformer O(n²) complexity.
Towards Data Science. De-Coded: Understanding Context Windows for Transformer Models.

Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

المستوى: مبتدئ

المشكلة باختصار

تخيل سبورة مدرسية

التعريف العلمي بدون لف

Context Window هو الحد الأقصى لعدد التوكنز اللي ممكن النموذج يعالجها في طلب واحد. ده بيشمل ثلاث حاجات مع بعض:

System prompt: التعليمات اللي بتقول للموديل يتصرف إزاي.
Conversation history: كل الرسائل السابقة في نفس الشات.
Output: الرد اللي الموديل بيولّده دلوقتي.

ليه الحد ده موجود أصلًا؟

أرقام موديلات 2026 الفعلية

الأرقام دي محدثة لسنة 2026 ومأخوذة من توثيق Anthropic الرسمي وOpenAI:

Claude Opus 4.7 و Sonnet 4.6: 1,000,000 توكن (مليون). أُتيحت بشكل عام في 13 مارس 2026.
Claude Haiku 4.5: 200,000 توكن.
GPT-4o: 128,000 توكن.
Gemini 2.5 Pro: حتى 2,000,000 توكن في إصدارات معينة.

إزاي تعرف نصك بياخد كام توكن؟

قبل ما تبعت أي طلب، حاجة عملية تعرف بيها حجم نصك. الكود ده بيستخدم Anthropic SDK ويرجّع لك العدد الفعلي:

Python

from anthropic import Anthropic

client = Anthropic()

text = """
ضع هنا أي نص عربي أو إنجليزي طويل.
الكود هيرجّعلك عدد التوكنز الفعلي
اللي هيدخل لنافذة السياق.
"""

response = client.messages.count_tokens(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": text}],
)

print(f"عدد التوكنز: {response.input_tokens}")

قاعدة تقريبية تنفعك من غير API: قسّم عدد حروف نصك العربي على 2.5 وهتطلع تقدير قريب جدًا للعدد الحقيقي.

إزاي تتعامل مع الحد العملي؟

فيه ثلاث استراتيجيات شائعة، وكل واحدة فيها ثمن:

Truncation (القص): تشيل أقدم رسائل من الشات قبل ما تبعت الطلب. التكلفة: ممكن تخسر سياق مهم. المكسب: بسيط ورخيص.
Summarization (التلخيص): كل ما الشات يطول، تطلب من الموديل يلخّص آخر 20 رسالة في رسالة واحدة. التكلفة: طلب إضافي يومي + احتمال خسارة تفاصيل دقيقة. المكسب: بتحافظ على المعنى العام.
RAG (Retrieval-Augmented Generation): تحط النصوص في قاعدة بيانات متجهات، وتجيب اللي يخص السؤال الحالي بس. التكلفة: بنية تحتية أكتر. المكسب: ممكن تشتغل على ملايين الكلمات.

القاعدة العملية: تحت 50,000 توكن، اعتمد على الـ context window مباشرةً. فوق كده، فكّر في RAG.

متى لا يهمك حجم الـ Context Window؟

الخطوة التالية

المصادر

Anthropic. Context windows. platform.claude.com/docs/en/build-with-claude/context-windows
Anthropic. Models overview. platform.claude.com/docs/en/about-claude/models/overview
Anthropic. How large is the context window on paid Claude plans? support.claude.com
Vaswani et al. Attention Is All You Need. arXiv:1706.03762.
PatSnap. Sparse attention cuts transformer O(n²) complexity.
Towards Data Science. De-Coded: Understanding Context Windows for Transformer Models.

Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

المشكلة باختصار

تخيل سبورة مدرسية

التعريف العلمي بدون لف

ليه الحد ده موجود أصلًا؟

أرقام موديلات 2026 الفعلية

إزاي تعرف نصك بياخد كام توكن؟

إزاي تتعامل مع الحد العملي؟

متى لا يهمك حجم الـ Context Window؟

الخطوة التالية

المصادر

هل استفدت من المقال؟

Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

Context Window في الذكاء الاصطناعي: ليه AI بينسى أول الكلام؟

المشكلة باختصار

تخيل سبورة مدرسية

التعريف العلمي بدون لف

ليه الحد ده موجود أصلًا؟

أرقام موديلات 2026 الفعلية

إزاي تعرف نصك بياخد كام توكن؟

إزاي تتعامل مع الحد العملي؟

متى لا يهمك حجم الـ Context Window؟

الخطوة التالية

المصادر

هل استفدت من المقال؟