هلوسة الموديلات للمبتدئ: ليه ChatGPT بيخترع حقائق

المستوى: مبتدئ — يحتاج فقط تجربة بسيطة سابقة مع ChatGPT أو Claude.

لو سألت ChatGPT عن "ورقة بحثية عن RAG في الطب 2023" ورجّعلك عنوان وأسماء مؤلفين ولينك Arxiv كامل، وروحت تدوّر عليها لقيت إنها مش موجودة أصلاً، ده اللي بنسمّيه Hallucination. الموديل ما بيكدبش عمداً، لكنه بيخمّن بثقة عالية. هنفهم في 7 دقايق ليه بيحصل ده، وازاي تقلّله 70% بأربع تقنيات مجرّبة بأرقام وكود Python شغّال.

هلوسة الموديلات اللغوية: ليه بتحصل وازاي توقفها

المشكلة باختصار

الموديل كل ما يولّد كلمة جديدة، بيختار الكلمة اللي عندها أعلى احتمال إحصائي إنها تيجي بعد الكلام اللي قبلها. لو الموضوع موجود في بيانات تدريبه كتير، الاختيار بيكون دقيق. لو الموضوع نادر أو غير موجود، الموديل بيقرّب لأقرب نمط شافه قبل كده، ويطلّع كلام يبدو منطقي بس مش حقيقي.

المشكلة دي مش هامشية. Vectara HHEM Leadershboard بيقيس نسبة الهلوسة في الـ summarization على آلاف العيّنات: GPT-4 Turbo بيهلوس حوالي 1.5% من الوقت، Claude 3.5 Sonnet 4.6%، Llama 3.1 70B حوالي 4.1%، و Mistral 7B بيوصل لـ 9.4%. يعني حتى أحسن موديل بيكدب 1-2 مرة في كل 100 ملخّص.

شاشة تعرض إجابة ChatGPT بثقة عالية مع مرجع علمي مخترع — تمثيل بصري لظاهرة الهلوسة في الموديلات اللغوية

مثال يوضّح الفكرة قبل التعريف العلمي: الطالب في امتحان التاريخ

تخيّل طالب دخل امتحان تاريخ، وفي سؤال عن تاريخ معركة معيّنة ما درسش الجزء بتاعها. قدامه اختياران: يسيب الورقة فاضية، أو يخمّن تاريخ يبدو معقول. لو نظام الدرجات بيعاقب على الإجابة الفاضية أكتر من الإجابة الغلط، الطالب هيخمّن. وأكيد هيكتب التاريخ بخط واضح وثقة كاملة، مش هيكتب "أعتقد إنه" قدام الإجابة، عشان مش عايز يبيّن إنه مش متأكد.

الموديل بيشتغل بنفس المنطق بالظبط. هو اتدرّب إنه دايماً يطلّع كلام مفيد، مش إنه يقول "ما عنديش معلومة". لما يلاقي نفسه قدام سؤال خارج تخصصه، بيختار الكلمات اللي حصلت أكتر مع كلمات السؤال في بيانات التدريب. النتيجة: نص يقرأ صحيح ومتماسك بس محتواه مخترع.

التعريف العلمي بدقة

الـ LLM في كل خطوة بيحسب probability distribution على كل الـ tokens الممكنة في القاموس. القاموس عند GPT-4 فيه حوالي 100 ألف token. الموديل بيختار token من التوزيع ده بناءً على معامل اسمه temperature. لو temperature = 0، بياخد الـ token الأعلى احتمال دايماً. لو temperature = 1، بيعمل sampling عشوائي مرجّح حسب التوزيع.

المشكلة إن التوزيع نفسه ممكن يكون "ضحل" في حالات معيّنة. يعني الموديل مش متأكد، وفيه 5 كلمات احتمالاتها متقاربة (مثلاً 22%، 20%، 19%، 18%، 17%). هنا بيظهر اللي اتسمّى في ورقة Kalai و Vempala (2024) بـ calibration mismatch: الموديل بيوصّل ثقة في النص النهائي أعلى بكتير من الثقة الإحصائية الحقيقية في كل token.

رسم توضيحي لتوزيع الاحتمالات على رموز اللغة في موديل LLM — الموديل يختار الكلمة التالية من التوزيع

4 أسباب رئيسية للهلوسة

فجوات في بيانات التدريب. لو الموديل ما شافش الموضوع كفاية، بيركّب الإجابة من قطع شافها في مواضيع تانية قريبة. مثل: تواريخ ميلاد لشخصيات نادرة، تفاصيل أوراق بحثية مش مشهورة.

هلوسة الموديلات للمبتدئ: ليه ChatGPT بيخترع حقائق وازاي توقفها

هلوسة الموديلات اللغوية: ليه بتحصل وازاي توقفها

المشكلة باختصار

مثال يوضّح الفكرة قبل التعريف العلمي: الطالب في امتحان التاريخ

التعريف العلمي بدقة

4 أسباب رئيسية للهلوسة

هل استفدت من المقال؟

4 طرق عملية لتقليل الهلوسة 70%

1) Grounding بـ RAG (الأقوى)

2) Temperature = 0

3) Self-consistency

4) Citations + Tool Use

كود Python شغّال: قارن إجابة بدون grounding وبيها

الأرقام: مين بيهلوس أكتر؟

الـ trade-offs (مفيش حل ببلاش)

متى لا تخاف من الهلوسة (هي مش دايماً عدوّك)

الخطوة التالية

المصادر