الذكاء الاصطناعي يقوم بتحليل اللغة بنفس كفاءة الخبير البشري

من بين القدرات العديدة التي يمتلكها البشر، أيها فريد من نوعه؟

لطالما كانت اللغة من أبرز المرشحين، على الأقل منذ عهد أرسطو، الذي كتب أن الإنسان هو "الحيوان الذي يمتلك اللغة". وحتى مع قيام نماذج لغوية ضخمة مثل ChatGPT بمحاكاة الكلام العادي ظاهريًا، يرغب الباحثون في معرفة ما إذا كانت هناك جوانب محددة في اللغة البشرية لا مثيل لها في أنظمة التواصل لدى الحيوانات الأخرى أو الأجهزة ذات الذكاء الاصطناعي.

على وجه الخصوص، استكشف الباحثون مدى قدرة نماذج اللغة على التفكير المنطقي في اللغة نفسها. ويرى بعض اللغويين أن نماذج اللغة لا تفتقر إلى القدرات المنطقية فحسب ، بل إنها عاجزة عنها تمامًا . وقد لخص نعوم تشومسكي، اللغوي البارز، واثنان من مؤلفيه المشاركين هذا الرأي في عام 2023، عندما كتبوا في صحيفة Times new York أن "التفسيرات الصحيحة للغة معقدة ولا يمكن تعلمها بمجرد الانغماس في البيانات الضخمة". ويجادل هؤلاء الباحثون بأن نماذج الذكاء الاصطناعي قد تكون بارعة في استخدام اللغة، لكنها غير قادرة على تحليلها بطريقة متطورة.

تم دحض هذا الرأي في ورقة بحثية حديثة لـ Gasper Begus ، عالم اللغويات بجامعة كاليفورنيا في Berkeley؛ و Maksymilian Dabkowski، الحاصل مؤخرًا على درجة الدكتوراه في اللغويات من Berkeley؛ و Ryan Rhodes من جامعة Rutgers.

أخضع الباحثون عددًا من نماذج اللغة الكبيرة (LLMs) لمجموعة واسعة من الاختبارات اللغوية، بما في ذلك، في إحدى الحالات، جعل النموذج يعمم قواعد لغة مُختلقة. وبينما فشلت معظم نماذج اللغة الكبيرة في تحليل القواعد اللغوية بالطريقة التي يستطيع بها البشر، أظهر أحدها قدرات مذهلة فاقت التوقعات بكثير. فقد تمكن من تحليل اللغة بنفس الطريقة التي يتبعها طالب دراسات عليا في اللغويات، من خلال رسم مخططات الجمل، وحل المعاني المتعددة الغامضة، والاستفادة من السمات اللغوية المعقدة مثل التكرار. وقال بيغوش إن هذه النتيجة "تتحدى فهمنا لما يمكن أن يفعله الذكاء الاصطناعي".

يُعدّ هذا العمل الجديد في وقته المناسب و"بالغ الأهمية"، كما صرّحTom McCay، عالم اللغويات الحاسوبية بجامعة Yale ، والذي لم يشارك في البحث. وأضاف: "مع ازدياد اعتماد المجتمع على هذه التقنية، تزداد أهمية فهم مواطن نجاحها ومواطن فشلها". وأوضح أن التحليل اللغوي هو البيئة المثالية لتقييم مدى قدرة هذه النماذج اللغوية على التفكير المنطقي كالبشر.

التعقيد اللانهائي

يتمثل أحد تحديات إخضاع نماذج اللغة لاختبار لغوي دقيق في التأكد من أنها لا تعرف الإجابات مسبقًا. تُدرَّب هذه الأنظمة عادةً على كميات هائلة من المعلومات المكتوبة، ليس فقط معظم محتوى الإنترنت، بعشرات إن لم يكن مئات اللغات، بل أيضًا على كتب اللغويات. من الناحية النظرية، يمكن للنماذج ببساطة حفظ المعلومات التي تم تزويدها بها أثناء التدريب وإعادة صياغتها.

لتجنب ذلك، ابتكر Beguš وزملاؤه اختبارًا لغويًا من أربعة أجزاء. تضمنت ثلاثة من هذه الأجزاء الأربعة مطالبة النموذج بتحليل جمل مصممة خصيصًا باستخدام مخططات شجرية، والتي عُرضت لأول مرة في كتاب Chomsky’s الرائد عام 1957، " البنى النحوية". تُقسّم هذه المخططات الجمل إلى عبارات اسمية وعبارات فعلية، ثم تُقسّمها بدورها إلى أسماء وأفعال وصفات وظروف وحروف جر وحروف عطف، وما إلى ذلك.

ركز جزء من الاختبار على التكرار - أي القدرة على تضمين عبارات داخل عبارات أخرى. "السماء زرقاء" جملة إنجليزية بسيطة. أما "قالت جين إن السماء زرقاء" فتضمّن الجملة الأصلية في جملة أكثر تعقيدًا بعض الشيء. والجدير بالذكر أن عملية التكرار هذه يمكن أن تستمر إلى ما لا نهاية: "تساءلت ماريا عما إذا كان سام يعلم أن عمر سمع أن جين قالت إن السماء زرقاء" هي أيضًا جملة تكرارية صحيحة نحويًا، وإن كانت غير سلسة.

وصف Chomsky’s وآخرون التكرار بأنه إحدى السمات المميزة للغة البشرية، بل وربما سمة مميزة للعقل البشري. وقد جادل اللغويون بأن إمكاناته اللامحدودة هي ما يمنح اللغات البشرية القدرة على توليد عدد لا نهائي من الجمل الممكنة من مفردات محدودة ومجموعة محدودة من القواعد. وحتى الآن، لا يوجد دليل مقنع على أن الحيوانات الأخرى تستطيع استخدام التكرار بطريقة متطورة.

يمكن أن يحدث التكرار في بداية الجملة أو نهايتها، ولكن الشكل الأكثر صعوبة في الإتقان، والذي يسمى التضمين المركزي، يحدث في المنتصف - على سبيل المثال، الانتقال من "ماتت القطة" إلى "ماتت القطة التي عضها الكلب ".

قدّم اختبار Beguš لنماذج اللغة 30 جملة أصلية تضمنت أمثلة معقدة على الاستدعاء الذاتي. على سبيل المثال: "لم يكن علم الفلك الذي درسه القدماء الذين نُجلّهم منفصلاً عن التنجيم". باستخدام شجرة نحوية، تمكّن أحد نماذج اللغة - وهو o1 من OpenAI - من تحديد أن بنية الجملة كانت على النحو التالي

لم يتوقع Beguš ، من بين آخرين، أن تصادف هذه الدراسة نموذج ذكاء اصطناعي يتمتع بقدرة "لغوية" أعلى مستوى - "القدرة ليس فقط على استخدام اللغة ولكن على التفكير في اللغة"، كما قال.

هذا أحد الجوانب اللافتة للنظر في بحثهم، كما قال David Mortensen ، عالم اللغويات الحاسوبية في جامعة Carnegie Mellon، والذي لم يشارك في البحث. وقد دار نقاش حول ما إذا كانت نماذج اللغة تتنبأ فقط بالكلمة التالية (أو الوحدة اللغوية) في الجملة، وهو ما يختلف نوعيًا عن الفهم العميق للغة لدى البشر. وأضاف: "قال بعض اللغويين إن نماذج اللغة لا تُعنى باللغة حقًا. ويبدو أن هذا البحث يُفنّد تلك الادعاءات".

ماذا تقصد؟

أبدى McCoy دهشته من أداء o1 بشكل عام، ولا سيما قدرته على تمييز الغموض، وهو أمر "يُعرف بصعوبة استيعابه بالنسبة للنماذج الحاسوبية للغة"، على حد قوله. وأضاف أن البشر "يمتلكون قدراً كبيراً من المعرفة البديهية التي تمكنهم من استبعاد الغموض، لكن من الصعب على الحواسيب امتلاك هذا المستوى من المعرفة البديهية".

جملة مثل "أطعم روان دجاجته الأليفة" قد تصف الدجاجة التي يربيها روان كحيوان أليف، أو قد تصف وجبة لحم الدجاج التي قدمها لرفيقه الحيواني (الذي يُفترض أنه حيوان أليف تقليدي). وقد أنتج نموذج o1 بشكل صحيح شجرتين نحويتين مختلفتين، إحداهما تتوافق مع التفسير الأول للجملة والأخرى مع التفسير الثاني.

أجرى الباحثون أيضًا تجارب متعلقة بعلم الأصوات، وهو دراسة أنماط الأصوات وكيفية تنظيم أصغر وحدات الصوت، والتي تُسمى الفونيمات. وللتحدث بطلاقة، كمتحدث أصلي، يتبع الناس قواعد صوتية ربما اكتسبوها من خلال الممارسة دون أن يتلقوا تعليمًا صريحًا. ففي اللغة الإنجليزية، على سبيل المثال، إضافة حرف "s" إلى كلمة تنتهي بحرف "g" تُنتج صوت "z"، كما في كلمة "dogs". أما إضافة حرف "s" إلى كلمة تنتهي بحرف "t" فيُنتج صوتًا أقرب إلى صوت "s" القياسي، كما في كلمة "cats".

في مهمة علم الأصوات، ابتكرت المجموعة 30 لغة مصغرة جديدة، كما أطلق عليها Beguš، لمعرفة ما إذا كان بإمكان طلاب اللغة الإنجليزية كلغة ثانية استنتاج القواعد الصوتية بشكل صحيح دون أي معرفة مسبقة. تتكون كل لغة من 40 كلمة مُختلقة. فيما يلي بعض الأمثلة على كلمات من إحدى هذه اللغات:

ثم طلبوا من نماذج اللغة تحليل العمليات الصوتية لكل لغة. بالنسبة لهذه اللغة، كتب النموذج o1 بشكل صحيح أن "حرف العلة يصبح حرف علة مهموسًا عندما يسبقه مباشرة حرف ساكن يكون مجهورًا ومغلقًا في نفس الوقت" - وهو صوت يتكون عن طريق تقييد تدفق الهواء، مثل حرف "t" في كلمة "top".

كانت اللغات حديثة الاختراع، لذا من المستحيل أن يكون o1 قد تعرّف عليها خلال تدريبه. وقال مورتنسن: "لم أكن أتوقع أن تكون النتائج بهذه القوة أو الإبهار".

فريد من نوعه كإنسان أم لا؟

إلى أي مدى يمكن أن تصل نماذج اللغة هذه؟ هل ستتحسن بلا حدود بمجرد زيادة حجمها - بإضافة المزيد من قوة الحوسبة، والمزيد من التعقيد، والمزيد من بيانات التدريب؟ أم أن بعض خصائص اللغة البشرية هي نتيجة لعملية تطورية تقتصر على جنسنا البشري؟

تُظهر النتائج الحديثة أن هذه النماذج قادرة، من حيث المبدأ، على إجراء تحليل لغوي متطور. لكن لم يأتِ أي نموذج حتى الآن بأي جديد، ولم يُعلّمنا شيئاً عن اللغة لم نكن نعرفه من قبل.

إذا كان التحسين يقتصر على زيادة القدرة الحاسوبية وبيانات التدريب، فإن Beguš يعتقد أن نماذج اللغة ستتفوق علينا في نهاية المطاف في المهارات اللغوية. وقال مورتنسن إن النماذج الحالية محدودة نوعًا ما. وأضاف: "إنها مُدرَّبة على أداء مهمة محددة للغاية: التنبؤ بالكلمة التالية بناءً على سجل من الرموز [أو الكلمات]. وتواجه هذه النماذج صعوبة في التعميم نظرًا لطريقة تدريبها."

لكن في ضوء التقدم المحرز مؤخراً، قال مورتنسن إنه لا يرى سبباً يمنع نماذج اللغة من إظهار فهم للغتنا يفوق فهمنا لها في نهاية المطاف. وأضاف: "إنها مسألة وقت فقط قبل أن نتمكن من بناء نماذج تعمم بشكل أفضل باستخدام بيانات أقل وبطريقة أكثر إبداعاً".

قال Beguš إن النتائج الجديدة تُظهر تراجعاً مستمراً في الخصائص التي كانت تُعتبر حكراً على اللغة البشرية. وأضاف: "يبدو أننا أقل تميزاً مما كنا نعتقد سابقاً".

تمت إعادة نشر القصة الأصلية بإذن من مجلة كوانتا، وهي منشور مستقل تحريريًا تابع لمؤسسة سيمونز، وتتمثل مهمتها في تعزيز الفهم العام للعلوم من خلال تغطية التطورات والاتجاهات البحثية في الرياضيات والعلوم الفيزيائية وعلوم الحياة.

الذكاء الاصطناعي يقوم بتحليل اللغة بنفس كفاءة الخبير البشري

اشترك في النشرة البريدية