الذكاء الاصطناعي يسعى لإسعادك، حتى لو اضطر لتحريف الحقيقة

الذكاء الاصطناعي التوليدي شائعٌ للغاية، إذ يستخدمه ملايين المستخدمين يوميًا، فلماذا تُخطئ روبوتات الدردشة كثيرًا ؟ يعود ذلك جزئيًا إلى أنها مُدرَّبة على التصرف كما لو أن العميل دائمًا على حق. باختصار، هي تُخبرك بما تعتقد أنك تُريد سماعه.

في حين أن العديد من أدوات الذكاء الاصطناعي المُولِّدة وروبوتات الدردشة قد أتقنت تقديم مظهر مقنع وواسع المعرفة، يُظهر بحث جديد أجرته جامعة برينستون أن طبيعة الذكاء الاصطناعي المُرضية للناس تأتي بثمن باهظ. فمع ازدياد شعبية هذه الأنظمة، أصبحت أقل اكتراثًا بالحقيقة.

تستجيب نماذج الذكاء الاصطناعي، كالبشر، للحوافز. قارن مشكلة نماذج اللغة الضخمة التي تُنتج معلومات غير دقيقة بمشكلة الأطباء الذين يميلون أكثر لوصف مسكنات ألم مُسببة للإدمان عند تقييمهم بناءً على مدى قدرتهم على إدارة آلام المرضى. فالحافز لحل مشكلة (الألم) أدى إلى مشكلة أخرى (الإفراط في وصف الأدوية).

في الأشهر القليلة الماضية، رأينا كيف يمكن للذكاء الاصطناعي أن يكون متحيزاً ، بل ويُسبب الذهان. كان هناك الكثير من الحديث عن " تملق " الذكاء الاصطناعي، عندما يسارع روبوت الدردشة التابع له إلى مجاملتك أو الموافقة عليك، باستخدام نموذج GPT-4o من OpenAI. لكن هذه الظاهرة تحديدًا، التي يُطلق عليها الباحثون "هراء الآلة"، مختلفة.

تشير دراسة جامعة برينستون إلى أن "الهلوسة والتملق لا يُجسدان تمامًا النطاق الواسع للسلوكيات الكاذبة المنهجية الشائعة لدى طلاب الماجستير في القانون. على سبيل المثال، لا تُمثل النتائج التي تستخدم حقائق جزئية أو لغة غامضة - مثل أمثلة التلاعب والكلمات المُضللة - هلوسة ولا تملقًا، بل تتوافق بشكل وثيق مع مفهوم الهراء".

كيف تتعلم الآلات الكذب

لكي نفهم كيف تصبح نماذج لغة الذكاء الاصطناعي محبوبة من قبل الجماهير، يتعين علينا أن نفهم كيف يتم تدريب نماذج اللغة الكبيرة.

هناك ثلاث مراحل لتدريب حاملي شهادات الماجستير في القانون:

التدريب المسبق، حيث تتعلم النماذج من كميات هائلة من البيانات التي يتم جمعها من الإنترنت أو الكتب أو المصادر الأخرى.

ضبط التعليمات، حيث يتم تعليم النماذج كيفية الاستجابة للتعليمات أو المطالبات.

التعلم التعزيزي من ردود الفعل البشرية، حيث يتم تحسينها لإنتاج استجابات أقرب إلى ما يريده الناس أو يحبونه.

وجد باحثو برينستون أن أساس ميل الذكاء الاصطناعي لنشر المعلومات المضللة يكمن في مرحلة التعلم التعزيزي من التغذية الراجعة البشرية، أو ما يُعرف بـ RLHF. في المراحل الأولية، تتعلم نماذج الذكاء الاصطناعي ببساطة التنبؤ بسلاسل نصية محتملة إحصائيًا من مجموعات بيانات ضخمة. ثم تُعدّل بدقة لتحقيق أقصى قدر من رضا المستخدمين. هذا يعني أن هذه النماذج تتعلم أساسًا توليد استجابات تحظى بتقييمات إيجابية من المُقيّمين البشريين.

تحاول نماذج LLM استرضاء المستخدم، مما يخلق صراعًا عندما تنتج النماذج إجابات يقيمها الناس بدرجة عالية، بدلاً من إنتاج إجابات صادقة وواقعية.

وقال فينسنت كونيتزر، أستاذ علوم الكمبيوتر في جامعة كارنيجي ميلون والذي لم يكن مشاركا في الدراسة، إن الشركات تريد من المستخدمين أن يستمروا في "الاستمتاع" بهذه التكنولوجيا وإجاباتها، ولكن هذا قد لا يكون دائما ما هو جيد بالنسبة لنا.

قال كونيتزر: "تاريخيًا، لم تكن هذه الأنظمة بارعة في قول: 'أنا ببساطة لا أعرف الإجابة'، وعندما لا تعرف الإجابة، فإنها تختلق الأمور". "يشبه الأمر طالبًا في امتحان يقول: حسنًا، إذا قلت إنني لا أعرف الإجابة، فلن أحصل على أي درجات في هذا السؤال، لذا من الأفضل أن أجرب شيئًا آخر. طريقة مكافأة أو تدريب هذه الأنظمة متشابهة إلى حد ما".

طوّر فريق برينستون "مؤشرًا للكذب" لقياس ومقارنة ثقة نموذج الذكاء الاصطناعي الداخلية في بيان ما بما يُبلغ به المستخدمين فعليًا. عندما يختلف هذان المقياسان اختلافًا كبيرًا، فهذا يُشير إلى أن النظام يُقدّم ادعاءات مستقلة عما "يعتقد" أنه صحيح لإرضاء المستخدم.

كشفت تجارب الفريق أنه بعد تدريب RLHF، تضاعف المؤشر تقريبًا من 0.38 إلى ما يقارب 1.0. في الوقت نفسه، ارتفع رضا المستخدمين بنسبة 48%. لقد تعلمت النماذج التلاعب بالمقيّمين البشريين بدلًا من تقديم معلومات دقيقة. باختصار، كانت نماذج LLM "تكذب"، وقد فضّلها الناس.

جعل الذكاء الاصطناعي صادقًا

قدّم خايمي فرنانديز فيساك وفريقه في جامعة برينستون هذا المفهوم لوصف كيفية تحايل نماذج الذكاء الاصطناعي الحديثة على الحقيقة. واستنادًا إلى مقال الفيلسوف هاري فرانكفورت المؤثر " عن الهراء "، استخدموا هذا المصطلح لتمييز سلوك طلاب الماجستير في القانون عن الأخطاء الصادقة والأكاذيب الصريحة.

وقد حدد الباحثون في جامعة برينستون خمسة أشكال مميزة لهذا السلوك:

البلاغة الفارغة: لغة مزخرفة لا تضيف أي محتوى إلى الاستجابات.

كلمات مراوغة: مؤهلات غامضة مثل "تشير الدراسات إلى" أو "في بعض الحالات" التي تتجنب التصريحات الحازمة.

التضليل: استخدام بيانات صحيحة مختارة بهدف التضليل، مثل تسليط الضوء على "العوائد التاريخية القوية" للاستثمار مع إغفال المخاطر العالية.

ادعاءات غير مؤكدة: تقديم ادعاءات دون دليل أو دعم موثوق.

النفاق: الإطراء غير الصادق والموافقة على الإرضاء.

لمعالجة قضايا الذكاء الاصطناعي غير المبال بالحقيقة، طوّر فريق البحث أسلوبًا جديدًا للتدريب، يُسمى "التعلم التعزيزي من محاكاة الإدراك المتأخر"، والذي يُقيّم استجابات الذكاء الاصطناعي بناءً على نتائجها طويلة المدى بدلًا من الرضا الفوري. فبدلًا من سؤال "هل تُسعد هذه الإجابة المستخدم الآن؟"، يُفكّر النظام في "هل اتباع هذه النصيحة يُساعد المستخدم على تحقيق أهدافه؟"

يأخذ هذا النهج في الاعتبار العواقب المستقبلية المحتملة لنصائح الذكاء الاصطناعي، وهو تنبؤٌ صعبٌ عالجه الباحثون باستخدام نماذج ذكاء اصطناعي إضافية لمحاكاة النتائج المحتملة. أظهرت الاختبارات الأولية نتائج واعدة، مع تحسن رضا المستخدمين والفائدة الفعلية عند تدريب الأنظمة بهذه الطريقة.

مع ذلك، قال كونيتزر إن أنظمة ماجستير القانون ستظل تعاني من عيوب على الأرجح. ولأن هذه الأنظمة تُدرّب بتزويدها بكميات كبيرة من البيانات النصية، فلا سبيل لضمان أن تكون إجاباتها منطقية ودقيقة في كل مرة.

من المدهش أن هذه الطريقة ناجحة، لكنها ستشوبها بعض العيوب. لا أرى أي دليل قاطع على أن شخصًا ما خلال العام أو العامين المقبلين... سيمتلك هذه الرؤية الثاقبة، ولن يخطئ أبدًا.

أصبحت أنظمة الذكاء الاصطناعي جزءًا لا يتجزأ من حياتنا اليومية، لذا من الضروري فهم آلية عمل برامج ماجستير الحقوق. كيف يُوازن المطورون بين رضا المستخدمين والصدق؟

ما هي المجالات الأخرى التي قد تواجه تناقضات مماثلة بين الموافقة قصيرة الأجل والنتائج طويلة الأجل؟ ومع ازدياد قدرة هذه الأنظمة على التفكير المتطور في علم النفس البشري، كيف نضمن استخدامها لهذه القدرات بمسؤولية؟