اكتشاف Hallucination في Claude: 3 تقنيات للمتوسط

المستوى المطلوب: متوسط — تحتاج خبرة سابقة بـ Claude API أو OpenAI SDK، وفهم أساسي للـ prompting.

لو تطبيقك بيرد على عميل بمعلومة غلط مرة كل 8 ردود، بتفقد ثقة 67% من المستخدمين خلال شهرين حسب تقرير Stanford HAI 2024. الـ Hallucination مش bug ممكن تتجاهله — هو الـ failure mode الأساسي لأي تطبيق LLM في إنتاج. المقال ده بيوريك 3 تقنيات بتكتشف 87% من الإجابات الغلط قبل ما توصل للمستخدم.

اكتشاف الـ Hallucinations في Claude قبل ما توصل للمستخدم

تمثيل بصري لعملية فحص ردود نموذج Claude للكشف عن المعلومات المختلقة قبل عرضها على المستخدم

المشكلة باختصار

الـ LLMs بتتدرّب على هدف predicting next token، مش على هدف "قول الحقيقة". لما الموديل ميعرفش الإجابة، بيخترع — مش لأنه بيكدب، لكن لأن الـ training objective بتاعه ميعاقبهوش على الاختراع. على benchmark TruthfulQA، Claude 4.7 بيوصل 71% truthfulness. ده يعني 29% من الردود ممكن تحتوي على معلومة خاطئة جزئياً.

لو مشروعك في مجال طبي، قانوني، أو مالي، الـ 29% دي بتتحوّل لمسؤولية قانونية. الحل مش "براومبت أحسن". الحل طبقة detection بعد ما الموديل يرد، وقبل ما الرد يوصل للمستخدم النهائي.

مثال للمبتدئ: المحقق وشاهد الإثبات

تخيّل محقق بيستجوب شاهد. الشاهد بيقولّه "العربية كانت حمرا، اللوحة 1234". المحقق ميصدّقش الكلام ده مباشرة. هو بيسأل تاني: "متأكد إن اللوحة 1234؟". لو الشاهد قال "آه" بدون تردد، الإجابة على الأرجح صحيحة. لو ردّ "ممكن، مش متأكد"، المحقق بيدوّر على شاهد تاني للتأكيد. ولو فيه شاهد تالت قال نفس الكلام بنفس الصياغة، الثقة في الرواية بتطلع لفوق.

تقنيات Hallucination Detection بتعمل نفس الشغل بالظبط: بتسأل الموديل تاني، بتقارن بين عدة ردود، أو بتطلب منه يستشهد بمصدر. أي تذبذب أو تناقض = إشارة قوية إنه بيخترع.

التعريف العلمي

الـ Hallucination في LLM بتنقسم لنوعين حسب ورقة Ji et al. 2023 (Survey of Hallucination in Natural Language Generation):

Intrinsic hallucination: الموديل بيتناقض مع المصدر اللي اتعطى له. مثال: في الـ context كتبت "العمر 30" والموديل قال "العمر 25".
Extrinsic hallucination: الموديل بيقول معلومة مش موجودة في الـ context ومش متحقق منها أصلاً. مثال: اخترع اسم دواء مش في وثيقتك.

الـ Detection بيعتمد على فرضية بسيطة من ورقة Wang et al. ICLR 2023: الموديل اللي واثق من إجابته بيقولها بنفس الصياغة لو سألته 5 مرات. الموديل اللي بيخترع، كل مرة بيقول حاجة شوية مختلفة. ده مبدأ self-consistency.

التقنية 1: Self-Consistency Sampling

الفكرة: شغّل نفس الـ prompt 5 مرات بـ temperature=0.7، وقارن الردود. لو 4 من الـ 5 متّفقة، الإجابة مرشّحة تكون صحيحة. لو الردود متبعثرة، علّمها كـ uncertain وارفض عرضها للمستخدم.

Python

Hallucination Detection للمتوسط: 3 تقنيات تكتشف 87% من إجابات Claude الغلط

اكتشاف الـ Hallucinations في Claude قبل ما توصل للمستخدم

المشكلة باختصار

مثال للمبتدئ: المحقق وشاهد الإثبات

التعريف العلمي

التقنية 1: Self-Consistency Sampling

هل استفدت من المقال؟

التقنية 2: التحقق بنداء ثاني (Verification Call)

التقنية 3: إجبار الاستشهاد بالمصدر (Source Attribution)

الجمع بين التقنيات: المعدل الكلي 87%

الـ Trade-offs الأساسية

متى لا تستخدم هذه التقنيات

الخطوة التالية

المصادر