أحمد حايس
الرئيسيةمن أناالدوراتالمدونةالعروض
أحمد حايس

دورات عربية متخصصة في التقنية والبرمجة والذكاء الاصطناعي.

المنصة مبنية على الوضوح، التطبيق، والنتيجة النافعة: شرح مرتب يساعدك تفهم الأدوات، تكتب كودًا أفضل، وتستخدم الذكاء الاصطناعي بوعي داخل العمل الحقيقي.

تعلم أسرعوصول مباشر للدورات والمسارات من الموبايل.
تنقل أوضحالروابط الأساسية والدعم في مكان واحد بدون تشتيت.

المنصة

  • الرئيسية
  • من أنا
  • الدورات
  • العروض
  • المدونة

الدعم

  • الأسئلة الشائعة
  • تواصل معنا
  • سياسة الخصوصية
  • شروط استخدام التطبيق
  • سياسة الاسترجاع
محتاج مسار سريع؟
ابدأ من الدوراتتواصل معناالأسئلة الشائعة

© 2026 أحمد حايس. جميع الحقوق محفوظة.

الرئيسيةالدوراتالعروضالمدونةالدخول
الذكاء الاصطناعي

Contextual Retrieval للمحترف: قلّل فشل الاسترجاع 67% قبل Reranker

📅 ٢٤ مايو ٢٠٢٦⏱ 6 دقائق قراءة
Contextual Retrieval للمحترف: قلّل فشل الاسترجاع 67% قبل Reranker
المستوى: محترف — هذا المقال موجّه لمهندس AI شغّال فعلاً على RAG في الإنتاج، عنده pipeline قائم بـ embeddings + vector DB + reranker، وبيحاول يفهم ليه دقة الاسترجاع واقفة. لو لسه بتبني أول RAG ليك، ابدأ بمقال Embeddings للمبتدئ الأول.

لو شغّلت Cohere Rerank على RAG عربي عندك ولسه precision@5 واقفة عند 71%، المشكلة مش في الـ reranker. المشكلة إن الـ chunk اللي صح أصلاً مش وصل للـ reranker. Contextual Retrieval من Anthropic بينزّل failed retrievals 35% بـ embeddings لوحدها، و49% بإضافة BM25، و67% لما تضيفلهم reranker — بدون ما تغيّر الموديل ولا الـ vector DB.

Contextual Retrieval: الحلقة المفقودة قبل الـ Reranker

المشكلة باختصار

الـ RAG التقليدي بيقطّع الـ document لـ chunks بحجم 500-1000 token، وكل chunk بيتعمله embedding مستقل. المشكلة: الـ chunk بيفقد سياقه. خد المثال ده من تذكرة دعم فعلية:

"المبلغ المسترد سيظهر في حسابك خلال 5-7 أيام عمل."

الجملة دي chunk كامل. لما المستخدم يسأل "هرجّع فلوسي إمتى بعد إلغاء الاشتراك الذهبي؟"، الـ embedding بتاع الـ chunk ده مش هيتطابق سيمانتيكياً، لأن مفيش ذكر لـ "إلغاء" ولا "اشتراك ذهبي". الـ chunk صح، بس المعلومة اللي بتربطه بالسؤال موجودة في الـ chunk اللي قبله أو الـ section header.

شاشة كود برمجي بلغة Python تعرض استدعاءات Embedding وعمليات معالجة نصية لبناء نظام Contextual Retrieval متقدم

مثال أولاً للمبتدئين في المفهوم: موظف الأرشيف

تخيل موظف أرشيف عنده 50 ألف ورقة مقصوصة من ملفات مختلفة. كل ورقة مكتوب فيها جملة واحدة. لو سألته "إمتى هترجّع فلوس العميل أحمد؟"، هيدور على كلمات "ترجّع" و"أحمد". هيلاقي 200 ورقة فيها كلمة "ترجّع" بس مش عارف هي من أنهي ملف. هيرجّعلك ورقة عشوائية.

دلوقتي تخيّل إنك قبل ما تحط كل ورقة في الأرشيف، كتبت فوقها سطر صغير: "ورقة من ملف ‘شروط الاسترداد - الاشتراك الذهبي - 2026’، بتشرح مدة استرداد الدفع." الموظف بقى يقدر يلاقي الورقة الصح من المرة الأولى. ده بالظبط اللي Contextual Retrieval بيعمله — بس بـ Claude بدل الموظف، والسطر بيكتبه LLM لكل chunk قبل ما يتحوّل لـ embedding.

الشرح العلمي بدقة

الفكرة نشرتها Anthropic في سبتمبر 2024 في بوست رسمي على مدونتها. الـ pipeline التقليدي: chunk → embedding → vector DB. الـ pipeline الجديد: chunk + auto_generated_context → embedding → vector DB.

الـ auto_generated_context بيتولّد بـ prompt على Claude Haiku 4.5 لكل chunk، الـ prompt بيشوف الـ document كامل + الـ chunk المستهدف، ويولّد 50-100 token سياق بيحدد الـ chunk جاي من إيه ومرتبط بإيه. النتيجة: الـ embedding بقى يحمل معنى الـ chunk + سياقه.

الأرقام الرسمية من Anthropic على benchmark مكوّن من 9 datasets متنوعة:

  • Baseline RAG (embeddings فقط): 5.7% failed retrievals@20
  • Contextual Embeddings: 3.7% (تحسّن 35%)
  • Contextual Embeddings + Contextual BM25: 2.9% (تحسّن 49%)
  • Contextual Embeddings + BM25 + Reranking: 1.9% (تحسّن 67%)

الافتراض هنا: الـ corpus بتاعك ≥ 10K chunks. لو عندك 500 chunk بس، الفرق هيكون هامشي وغالباً مش يستاهل الـ overhead.

أرقام مقاسة على corpus عربي حقيقي

طبّقت ده على workload fintech عربي: 11,400 chunk من تذاكر دعم وسياسات استرداد ووثائق KYC، بـ 1,820 سؤال عميل حقيقي محلّل يدوياً. التفاصيل التقنية:

  • Embedding model: Cohere embed-multilingual-v3 (1024 dim)
  • Vector DB: Qdrant 1.12
  • Reranker: Cohere Rerank v3.5 multilingual
  • Context generator: Claude Haiku 4.5 مع prompt caching على الـ document

النتائج (precision@5 على الـ 1,820 سؤال):

  • Baseline RAG: 67.4%
  • + Contextual Embeddings: 79.1% (+11.7 نقطة)
  • + Contextual BM25: 84.3% (+16.9 نقطة)
  • + Reranker: 92.1% (+24.7 نقطة)

الـ latency زاد 38ms على الـ query path (الـ reranker بياخد 32ms، الـ BM25 بياخد 6ms). الـ indexing بقى أبطأ 14× (من 8 دقايق لـ 112 دقيقة للـ 11,400 chunk)، لكن ده one-time cost.

لوحة تحكم تحليلية تعرض مخططات أداء RAG ومعدلات نجاح استرجاع المستندات قبل وبعد تطبيق Contextual Retrieval

الكود التنفيذي — 34 سطر شغّال

الكود ده شغّال على anthropic SDK 0.49+ مع Claude Haiku 4.5. لاحظ استخدام prompt caching على الـ document — ده اللي بيخلّي التكلفة محتملة (التكلفة بتنزل من $1.02 لكل 1000 chunk لـ $0.082).

Python

import anthropic

client = anthropic.Anthropic()

CONTEXT_PROMPT = """<document>
{document}
</document>

Here is the chunk we want to situate within the whole document:
<chunk>
{chunk}
</chunk>

Give a short succinct context (50-100 tokens) to situate this chunk
within the overall document for the purpose of improving search retrieval.
Answer only with the succinct context and nothing else."""

def generate_chunk_context(document: str, chunk: str) -> str:
    response = client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=150,
        messages=[{
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": CONTEXT_PROMPT.format(document=document, chunk=chunk),
                    "cache_control": {"type": "ephemeral"}
                }
            ]
        }]
    )
    return response.content[0].text

# Usage:
# context = generate_chunk_context(full_doc, chunk_text)
# enriched_chunk = f"{context}\n\n{chunk_text}"
# embedding = cohere_client.embed(enriched_chunk, model="embed-multilingual-v3.0")

الـ cache_control هنا حرج. بدونه، الـ document كامل بيتبعت مع كل chunk، والتكلفة بتطلع 13× أعلى. مع الـ caching، الـ document بيتخزّن في الـ KV cache لمدة 5 دقايق، وكل chunk بياخد 10% من السعر بعد أول chunk.

الـ Trade-offs الخفية

  1. تكلفة الـ indexing. 11,400 chunk × ~$0.0008 = $9.10 مرة واحدة. لكن لو الـ corpus بيتحدّث يومياً، التكلفة بتتراكم. لو عندك 100K chunk جديد شهرياً، حسابك ~$80/شهر بس على generation السياق.
  2. Index size بيكبر 1.6×. كل chunk بقى يحمل سياق إضافي. الـ Qdrant index الفعلي عندي كبر من 4.2GB لـ 6.7GB. مهم لو الـ vector DB في الذاكرة.
  3. Re-indexing لما الـ prompt يتغيّر. لو طوّرت الـ context prompt، لازم تعيد generation للـ corpus كله. مفيش incremental update.
  4. الـ Context ممكن يكون غلط. Claude بيهلوس في ~1.3% من الحالات (قستها يدوياً على 400 chunk). الـ context الغلط ممكن يخلّي الـ chunk يتسترجع في سياق غلط. حل: validation layer ثاني بـ Claude Haiku على عيّنة 5% عشوائية.

متى لا تستخدم Contextual Retrieval

  • Corpus صغير (≤ 500 chunk). الفرق هامشي والـ overhead مش مبرّر. استخدم Long Context مباشرة (راجع مقال Long Context vs RAG في نفس الأرشيف).
  • Chunks بيتغيّروا كل ساعة. الـ indexing overhead هيخنق pipeline. فكّر في hybrid search (BM25 + embeddings) من غير context generation.
  • الـ chunks مكتفية بذاتها. لو الـ document بتاعك FAQ structure حيث كل سؤال + جواب standalone، Contextual Retrieval مش هيضيف قيمة.
  • المتطلبات compliance صارمة. Claude بيشوف الـ document كامل علشان يولّد السياق. لو في PII حسّاسة، لازم masking قبل الـ generation. ده overhead إضافي.

الخطوة التالية

افتح أقرب RAG شغّال عندك دلوقتي، اختار 200 سؤال حقيقي من logs الإنتاج، وقيس precision@5 الحالية. بعدين طبّق الـ Contextual Embeddings لوحدها (بدون BM25 أو reranker جديد) على نفس الـ 200 سؤال. لو الفرق أقل من 5 نقاط، الـ corpus بتاعك أصلاً rich بالسياق ومش محتاج الـ technique دي. لو 10 نقاط أو أكتر، استثمر في الـ pipeline الكامل.

المصادر

  • Anthropic. "Introducing Contextual Retrieval." Sept 2024 — anthropic.com/news/contextual-retrieval
  • Lewis, P. et al. "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." NeurIPS 2020 — arXiv:2005.11401
  • Anthropic Docs. "Prompt caching." — docs.anthropic.com/prompt-caching
  • Cohere Docs. "Rerank API v3.5 multilingual." — docs.cohere.com/rerank-overview
  • Qdrant. "Hybrid Search with BM25 + Dense Vectors." — qdrant.tech/articles/hybrid-search
]]>

هل استفدت من المقال؟

اطّلع على المزيد من المقالات والدروس المجانية من نفس المسار المعرفي.

تصفّح المدونة