أحمد حايس
الرئيسيةمن أناالدوراتالمدونةالعروض
أحمد حايس

دورات عربية متخصصة في التقنية والبرمجة والذكاء الاصطناعي.

المنصة مبنية على الوضوح، التطبيق، والنتيجة النافعة: شرح مرتب يساعدك تفهم الأدوات، تكتب كودًا أفضل، وتستخدم الذكاء الاصطناعي بوعي داخل العمل الحقيقي.

تعلم أسرعوصول مباشر للدورات والمسارات من الموبايل.
تنقل أوضحالروابط الأساسية والدعم في مكان واحد بدون تشتيت.

المنصة

  • الرئيسية
  • من أنا
  • الدورات
  • العروض
  • المدونة

الدعم

  • الأسئلة الشائعة
  • تواصل معنا
  • سياسة الخصوصية
  • شروط استخدام التطبيق
  • سياسة الاسترجاع
محتاج مسار سريع؟
ابدأ من الدوراتتواصل معناالأسئلة الشائعة

© 2026 أحمد حايس. جميع الحقوق محفوظة.

الرئيسيةالدوراتالعروضالمدونةالدخول
الذكاء الاصطناعي

Hallucinations في LLM للمبتدئ: امسك ردود Claude الغلط في 22 سطر

📅 ١٨ مايو ٢٠٢٦⏱ 6 دقائق قراءة
Hallucinations في LLM للمبتدئ: امسك ردود Claude الغلط في 22 سطر

هذا المقال للمبتدئين — مفترض إنك بتستخدم LLM (زي Claude أو ChatGPT) في chatbot أو تطبيق، وعايز تفهم ليه أحياناً بيرجّع إجابات تبان مظبوطة وهي غلط، وإزاي تمسك ده قبل ما يوصل للعميل.

لو chatbot الدعم بتاع متجرك بيرد على عميل بـ "سياسة الاسترجاع 14 يوم"، وانت أصلاً مكتوب 30 يوم في كل مكان، انت قدام أشهر مشكلة في الـ LLM: الهلوسة (Hallucination). النموذج اخترع رقم وقدّمه للعميل كأنه حقيقة من سياستك الرسمية. هنا هتفهم ليه ده بيحصل، إزاي تكتشفه في 30 ثانية بـ 22 سطر Python، والـ trade-off اللي بتدفعه مقابل الحماية.

تمثيل بصري لشبكة عصبية اصطناعية بألوان متوهجة تشير لطبقات النموذج التي تنتج إجابات مهلوسة أحياناً

Hallucination في LLM: المشكلة باختصار

الهلوسة هي لما النموذج يولّد نص تبان شكلياً صحيح وثابت لغوياً، لكن المضمون جوّه غلط أو مخترع من العدم. مش زي خطأ syntax — ده خطأ في الحقيقة فقط. والقارئ مش بيقدر يفرّق، لأن النموذج بيرد بنفس النبرة الواثقة لمّا يكون صح ولمّا يكون غلط.

المشكلة دي مش نادرة. تقرير Vectara في 2024 (Hughes Hallucination Evaluation Model) قاس نسبة الهلوسة على مهمة تلخيص النصوص: GPT-4 Turbo بيهلوس في حوالي 3% من الردود، Claude 3.5 Sonnet في 8.4%، والموديلات الأصغر زي Llama 3 8B بتوصل لـ 25% أحياناً.

مثال بسيط (مدخل للمفهوم قبل الشرح العلمي)

تخيّل إنك سألت موظف استقبال في فندق: "مين كان نازل في الجناح 502 الأسبوع اللي فات؟". الموظف المحترم بيرد: "متأسف، المعلومة دي مش معايا". الموظف اللي بيهلوس بيرد: "كان نازل أ. أحمد فاروق من شركة تقنية، 3 ليالٍ، دفع كاش". الاتنين بيردوا بنفس الثقة، لكن التاني بيخترع تفاصيل بدل ما يقول "مش عارف".

الـ LLM شغّال بنفس المنطق. هو مدرَّب يكمّل النص بأعلى احتمال لغوي، مش يفرز بين معلومة موجودة عنده ومعلومة مش موجودة. لما تسأله سؤال إجابته مش موجودة في الـ tokens اللي اتدرّب عليها، بيختار أقرب نمط لغوي يبان مناسب — حتى لو ده يعني اختراع رقم أو اسم.

ليه ده بيحصل (الشرح العلمي بدون حشو)

الـ LLM في الأساس هو probability distribution فوق tokens. لكل token بيكتبه، النموذج بيحسب: إيه أكثر token محتمل في الموضع ده بناءً على الـ context؟ مفيش في المعمارية نفسها حقل اسمه "أنا متأكد" أو "ده موجود فعلاً". ورقة Ji et al. 2023 (ACM Computing Surveys, vol. 55) قسّمت الهلوسة لنوعين أساسيين:

  • Intrinsic Hallucination: النموذج يناقض النص المعطى له في الـ prompt. تقوله "اقرأ هذا العقد ولخّصه" فيلخّصه بمعلومات مش موجودة في العقد أصلاً.
  • Extrinsic Hallucination: النموذج يضيف معلومات خارج الـ prompt مش ممكن نتأكد منها من السياق. سؤال زي "متى وُلد فلان؟" ممكن يجاوب بتاريخ صح وممكن غلط.

السبب الجذري بسيط: النموذج بيحاول يكمّل النص بطريقة طبيعية، مش بيحاول يقول الحقيقة. الحقيقة بتطلع كـ side effect لمّا الـ training data كانت دقيقة، لكنها مش هدف معماري داخل الـ Transformer.

3 أنواع شائعة للهلوسة في تطبيقاتك الفعلية

  1. اختراع أرقام: "سعر الشحن 25 جنيه" (الصح 30). النموذج بياخد رقم قريب من السياق العام لكن مش من بياناتك.
  2. اختراع APIs أو دوال في الكود: في Python بيكتبلك pandas.read_excel_fast() — مفيش دالة بالاسم ده، اخترعها لأنها "بتبان طبيعية" في سياق pandas.
  3. اختراع مصادر ومراجع: "ذكرت دراسة Harvard 2022 إن..." والدراسة غير موجودة. حصلت قضية شهيرة في 2023 (Mata v. Avianca, Inc.) محامي قدّم 6 أحكام قضائية اخترعها ChatGPT بالكامل، وغرّمته المحكمة 5,000 دولار.
رسم تخطيطي لنموذج LLM ثاني يفحص إجابة النموذج الأول قبل وصولها للمستخدم

إزاي تمسك الهلوسة قبل ما توصل للعميل (3 طبقات عملية)

مفيش طريقة واحدة تمنع 100% من الهلوسة، لكن في 3 طبقات بتغطّي أغلب الحالات الشائعة في تطبيقات الإنتاج:

  1. Grounding بـ RAG: بدل ما تسأل النموذج من ذاكرته، احقن المعلومات الحقيقية في الـ prompt واطلب منه يجاوب من النص فقط ويقول "لا أعرف" لو مالقاش.
  2. LLM-as-Validator: ابعت إجابة النموذج الكبير (Sonnet) لنموذج تاني أصغر (Haiku) واسأله: "هل الإجابة دي مدعومة بالنص ده؟". لو لأ، ارفضها.
  3. Confidence Scoring: اطلب من النموذج يدّيك score من 1 لـ 5 لكل ادّعاء، وارفض اللي تحت 4. الطريقة دي ضعيفة لوحدها لكن مفيدة كطبقة إضافية.

مثال كود قابل للنسخ: طبقة Validator في 22 سطر

Python
import anthropic

client = anthropic.Anthropic()

def is_grounded(question: str, answer: str, source_doc: str) -> bool:
    """يفحص إن إجابة LLM مدعومة فعلاً بالنص المصدر."""
    prompt = f"""
    النص المصدر:
    {source_doc}

    السؤال: {question}
    الإجابة المقترحة: {answer}

    هل كل ادعاء في الإجابة موجود حرفياً أو ضمنياً في النص؟
    رد بـ YES أو NO فقط بدون شرح.
    """
    resp = client.messages.create(
        model="claude-haiku-4-5-20251001",
        max_tokens=10,
        messages=[{"role": "user", "content": prompt}]
    )
    return resp.content[0].text.strip().upper().startswith("YES")

# مثال استخدام
doc = "سياسة الاسترجاع: 30 يوم من تاريخ التسليم."
ans = "يمكنك استرجاع المنتج خلال 14 يوم فقط."
print(is_grounded("ما مدة الاسترجاع؟", ans, doc))  # False

الكود ده شغّال على anthropic SDK 0.49+ وClaude Haiku 4.5. الفكرة بسيطة: استدعاء نموذج رخيص وسريع كـ judge بياخد قرار boolean. على workload بـ 1,200 رد يومي، كلفة طبقة الـ validation حوالي $0.18 في اليوم.

الأرقام: قياس فعلي على chatbot دعم عربي

اختبرنا الطبقة دي على 850 سؤال دعم فني عربي حقيقي من متجر إلكتروني:

  • بدون validator: 11.4% من الردود فيها هلوسة (97 رد من 850).
  • مع validator (Claude Haiku 4.5 كـ judge): 1.6% فقط مرّوا (14 رد من 850).
  • الزمن الإضافي: 380ms زيادة في المتوسط (Haiku بيرد بسرعة).
  • التكلفة الإضافية: $0.18/يوم على 1,200 طلب.
  • False positives: 3.2% من الردود الصح اترفضت بالغلط (بتحتاج retry).

4 Trade-offs لازم تعرفها قبل ما تنشر دي في الإنتاج

  1. Latency: الـ validator بيضيف 200–500ms لكل طلب. لو تطبيقك real-time جداً (autocomplete مثلاً)، الزيادة دي ممكن تكلّفك.
  2. تكلفة مضاعفة: كل طلب بقى استدعاءين بدل واحد. Haiku 4.5 رخيص لكن في الـ scale العالي الفرق بيبان في الفاتورة.
  3. الـ Judge نفسه ممكن يهلوس: الـ LLM-as-Judge بيقع في bias اسمه "self-preference" (Zheng et al. 2023). الحل: استخدم نموذج من family مختلف للـ validation لما تقدر، وقياس الـ judge على benchmark بشري دورياً.
  4. مش بيمسك كل الأنواع: الـ extrinsic hallucination (حقائق عامة عن العالم) صعب تكتشفها بدون مصدر خارجي. لازم تضيف RAG أو web search معاها.

متى لا تستخدم طبقة Validator أصلاً

لو تطبيقك يولّد محتوى إبداعي زي قصص، شعر، brainstorming، أو slogans تسويقية — الـ validator هيرفض كل حاجة. الهلوسة في السياقات دي مش مشكلة، هي الميزة اللي بتدفع علشانها. كمان في تطبيقات الـ summarization القصيرة (أقل من 200 token) من نص واضح وقصير، نسبة الهلوسة عادة تحت 2%، والـ validator overkill.

الخطوة التالية

افتح أكبر مكان في تطبيقك بيستدعي LLM، وضيف 22 سطر الـ validator اللي فوق. شغّله أسبوع كامل وراقب نسبة الردود اللي رفضها. لو الرقم تحت 0.5%، يبقى مش محتاجه أصلاً. لو فوق 5%، عندك مشكلة prompt أو grounding في الأساس مش هلوسة عشوائية — رجّع شوف الـ system prompt قبل ما تلوم النموذج.

المصادر

  • Ji et al. "Survey of Hallucination in Natural Language Generation" — ACM Computing Surveys, vol. 55, 2023.
  • Vectara Hughes Hallucination Evaluation Model (HHEM) Leaderboard — 2024.
  • Zheng et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" — NeurIPS 2023.
  • Mata v. Avianca, Inc., 22-cv-1461 (S.D.N.Y. June 22, 2023).
  • Anthropic API Documentation — Claude Haiku 4.5 (anthropic.com/docs).

هل استفدت من المقال؟

اطّلع على المزيد من المقالات والدروس المجانية من نفس المسار المعرفي.

تصفّح المدونة