لا تزال الهلوسات تُقيّد نماذج اللغة الكبيرة (LLMs) بشكل كبير، لا سيما في مهام البحث عن الحقائق والمهام التي تتطلب معرفة مكثفة. وتعالج تقنية التوليد المُعزز بالاسترجاع (RAG)، التي تعتمد في مخرجات النموذج على مصادر معرفية خارجية، هذه المشكلة. تدرس هذه الدراسة أثر دمج المعرفة المنظمة من ويكي بيانات في مسار إجابة الأسئلة القائم على نماذج اللغة الكبيرة (LLMs) لتقليل المواد المُهلوسة. تقوم تقنية RAG المقترحة، القائمة على ويكي بيانات، بإدخال هذا السياق المنظم في مُوجه نموذج اللغة الكبيرة (LLM) قبل توليف الاستجابة، وذلك من خلال استخراج الكيانات من سؤال الإدخال أولاً، ثم جمع الكيانات المرشحة والسمات المُتحقق منها من ويكي بيانات. استُخدم كل من نماذج خط الأساس التي تعتمد على المُوجه فقط ونظام RAG القائم على ويكي بيانات لتقييم 80 مسألة تركيبية متعددة المراحل. تم تقييم نموذج RAG المقترح باستخدام أربع طرق مختلفة لتقييم الهلوسات. تم تقييم النموذج مقابل خط أساس يعتمد على التوجيه فقط باستخدام ثلاثة معايير: نموذج AimonLabs لكشف الهلوسة، ونموذج Vectara HHEM، ومعيار LLM-as-a-Judge. وقد تم تقييم دقة السياق المسترجع (تقييم RAGTruth) باستخدام معيار التقييم الأخير. (Vectara HHEM: 77.5% مقابل 38.75% من الإجابات الواقعية؛ AIMON: 60% مقابل 32.5% من الإجابات الواقعية؛ LLM-as-a-Judge: 75% مقابل 38.75% من الإجابات الواقعية). وقد تفوق معيار RAG باستمرار على خط الأساس لدى جميع المُقيّمين الأربعة. بلغت دقة السياق المسترجع في 54 مثالًا من أصل 79 مثالًا تم تقييمها 68.35%. يشير هذا إلى أن تكرار الهلوسة الملحوظ يتأثر بنهج التقييم المُستخدم. تُظهر هذه النتائج كيف يمكن تحسين دقة الحقائق بشكل كبير من خلال بناء نماذج التعلم القائمة على المعرفة المنظمة من ويكي بيانات. كما تُظهر أهمية وجود عدة مُقيّمين عند دراسة الهلوسة.
