تتعلم الآلات فن أن تكون إنسانًا

بات بإمكان أنظمة الذكاء الاصطناعي الآن رؤية وجهك، وسماع نبرة صوتك، والاستجابة لك في الوقت الفعلي. إن تعليم الآلات فنّ التفاعل الإنساني يعني سدّ الفجوة بين التقليد السطحي والتعاطف الحقيقي.

قد يكون هذا أكبر مشروع فني للبشرية على الإطلاق - تعليم الآلات فهم فن كيفية أن تكون إنسانًا.

قال حسان رضا، المؤسس المشارك والرئيس التنفيذي لشركة Tavus ، وهي مختبر أبحاث ومنصة تطوير للذكاء الاصطناعي مقرها سان فرانسيسكو: "لا يمكنك تعليم الآلة فهم البشر إلا إذا علمتها أيضاً فهم المشاعر الإنسانية". وقد شارك رضا هذه الرؤية من خلال مقابلة.

تتمحور معظم المشاعر الإنسانية التي يتحدث عنها رضا حول الوجه، حيث تتفاعل عشرات العضلات بطرق لا حصر لها لتكوين تعابير معقدة. وإلى جانب نبرة الصوت والإيماءات، يتم نقل المعنى بطرق تتجاوز الكلمات بكثير.

قال رضا: "يركز جزء كبير من أبحاثنا على قدرة الذكاء الاصطناعي على رؤية الإيماءات وتعبيرات الوجه والتعرف عليها، حيث يحدد نظام الذكاء الاصطناعي ما إذا كان هذا الشخص يبدو سعيدًا أم حزينًا أم متعبًا. ويمكن للأنظمة قياس المشاعر ونبرة الصوت والتفاعل المتبادل، واستخدامها كإشارات للاستجابة بشكل مناسب."

مع ذلك، لا تزال هذه التقنية محدودة النطاق نسبيًا؛ إذ قد تُغفل إشارات دقيقة مثل معدل الرمش، واتساع حدقة العين، وتعبيرات الوجه الدقيقة. وتختلف هذه الإشارات اختلافًا كبيرًا بين الثقافات. فبينما قد يُشير الصمت إلى عدم الارتياح في الثقافات الغربية، فإنه قد يُعبّر عن التقبل والموافقة في العديد من الثقافات الآسيوية.

ما هو الذكاء الاصطناعي للفيديو التفاعلي؟

تُمكّن تقنية الذكاء الاصطناعي للفيديو التفاعلي من إجراء محادثات فيديو فورية وجهاً لوجه مع وكلاء ذكاء اصطناعي قادرين على التفاعل تماماً كالبشر. لا تُقدّم جميع الأنظمة نفسها على هيئة بشر، فهناك نماذج افتراضية آلية وحيوانية وأشياء. لكنّ الطلب الأكبر يكمن في نماذج افتراضية تتمحور حول الإنسان وقادرة على بناء علاقة حقيقية.

يستمر سوق الذكاء الاصطناعي التفاعلي العالمي في النمو. وقد بلغت قيمته 14.79 مليار دولار في عام 2025، ومن المتوقع أن تصل إلى 17.97 مليار دولار في عام 2026 و82.46 مليار دولار في عام 2034.

لماذا لا يزال الذكاء الاصطناعي يواجه صعوبة في إجراء محادثات بشرية طبيعية؟

حالياً، لا تزال الفجوة واسعة بين التقليد السطحي والفهم الحقيقي.

أبرز ما يُشير إلى هذه الفجوة هو ما يُطلق عليه Nate MacLeitch، مؤسس شركة كويك بلوكس ومديرها التنفيذي ، "علامات التردد وفترات الصمت"، وهي الإشارات الصوتية الدقيقة التي يستخدمها البشر للدلالة على أنهم ما زالوا يُفكرون.

كويك بلوكس، ومقرها لندن، هي منصة اتصالات سحابية تُقدم ميزات الذكاء الاصطناعي. تُتيح هذه الإشارات انتقالًا فوريًا تقريبًا بين المتحدثين، حيث تتراوح مدة الانتقال بين 200 و500 مللي ثانية، كما ذكر MacLeitch في ردٍّ عبر البريد الإلكتروني على بعض الأسئلة. وأضاف: "إذا لم ينتهِ المتحدثون من حديثهم تمامًا، فإنهم يميلون إلى ملء الفترات بأصوات تُشير إلى التفكير، بينما تتوقف معظم أنظمة الذكاء الاصطناعي عن العمل أثناء المعالجة".

إن التحدي الذي يواجه الذكاء الاصطناعي التفاعلي لا يقتصر على مجرد محاكاة المظهر السطحي للتعبيرات العاطفية، بل يشمل تطوير ما يسميه الباحثون "نظرية العقل"، أي القدرة على نمذجة ما قد يفكر فيه إنسان آخر أو ينوي فعله - أو حتى ما هو على وشك التفكير فيه.

قال رافي كومار بوفاناغيري، الباحث المستقل في كلية ماكومبس للأعمال بجامعة تكساس في أوستن، في ردٍّ عبر البريد الإلكتروني على أسئلةٍ وُجِّهت إليه: "لا يتعلق الأمر بأن تكون 'شبيهاً بالإنسان' بتعبيراتٍ دقيقةٍ متزامنةٍ تماماً، بل يتعلق بالنية المشتركة: القدرة على وجود أهدافٍ وسياقٍ وأسسٍ أخلاقيةٍ مشتركةٍ في التفاعل". وأضاف": ترسم الأنظمة الحالية خرائطَ للارتباطات، لا العلاقات".

من أبرز الشركات الرائدة في مجال الذكاء الاصطناعي للفيديوهات التفاعلية الحوارية شركتا Tavus وD-ID. وتركز شركتا HeyGen وSynthesia على إنتاج فيديوهات الاستوديو/الفيديوهات المكتوبة لأغراض التدريب والتسويق، مع أن كلتيهما تستكشفان إمكانيات التفاعل. أما مزودو البنية التحتية والمنصات فهم شركات مايكروسوفت وجوجل وميتا وإنفيديا وأوبن إيه آي.

أطلقت شركة Tavus مؤخراً تقنية PALs (طبقات الوكلاء الشخصيين) التي تبدو بشرية وتستطيع الرؤية والاستماع وحفظ المحادثات. ويمكن للمستخدمين إجراء محادثات فيديو مع هؤلاء "الرفقاء المتكيفين" الذين يتفاعلون أيضاً عبر الرسائل النصية والبريد الإلكتروني.

بدلاً من إنشاء مساعد واحد متعدد الأغراض، صمم Tavus خمس شخصيات مميزة مصممة خصيصًا لتلبية احتياجات المستخدمين المختلفة وأنماط التفاعل.

يُقدَّم العميل دومينيك على أنه "خادم إنجليزي تقليدي"، مُنظِّم منزلي بارع في ترتيب الفوضى في حياة المستخدمين. تجمع كلوي بين الدعم العاطفي والمساعدة على زيادة الإنتاجية. يُقدِّم نوح نصائح صادقة وصداقة حقيقية لمن يبحثون عنها، "كأخ أكبر لم تُرزق به"، كما يقول Tavus . آشلي الثرثارة ("متصلة بالإنترنت نهائيًا") مهووسة بالإعلام، تُساعد في المشاريع الإبداعية وتُتابع اتجاهات الثقافة الشعبية. تشارلي خبير تقني مُصمَّم ليُشارك المستخدمين شغفه بمجموعة واسعة من المهام.

تتطور وتتغير وكلاء الذكاء الاصطناعي في Tavus (جميعهم يبدون في أوائل الثلاثينيات من العمر باستثناء دومينيك، الذي يبلغ من العمر حوالي الخمسين) بمرور الوقت، ويتعلمون أساليب التواصل وتفضيلات المستخدمين. يستطيع الوكلاء رؤية المستخدمين وملاحظة الإشارات الوجهية والجسدية والبيئية والتعليق عليها: "تبدو حزينًا بعض الشيء اليوم، ما الأمر؟" أو "أعجبتني تلك اللمبة ذات الطراز الفني الزخرفي بالقرب من نافذتك؛ من أين حصلت عليها؟"

كما طورت شركة Tavus شخصية سانتا كلوز تعمل بالذكاء الاصطناعي بنفس قدرات شخصياتها المساعدة (PALs) - والتي أثبتت شعبيتها لدى كل من البالغين والأطفال خلال العطلات.

إلى جانب سانتا، أطلقت شركة Tavus مؤخرًا Sparrow-1، وهو نموذج للتحكم في تدفق المحادثة يوفر توقيتًا أفضل على مستوى الإنسان للذكاء الاصطناعي الصوتي والمرئي في الوقت الفعلي.

مع ذلك، قد تعجز أنظمة الذكاء الاصطناعي الحالية عن إدراك أمورٍ أدقّ بكثير من مصابيح آرت ديكو: كالدعابة والسخرية وغيرها من التحولات في نبرة الصوت، "مما يؤدي إلى استجابات آلية لا تُدرك المغزى"، كما قال ماكليتش. وحتى عندما يرصد نظام الذكاء الاصطناعي شعورًا كالغضب، "فغالبًا ما يفتقر إلى العمق الكافي لفهم السبب الكامن أو تقديم استجابة دقيقة"، على حد قوله. "سيظل التمييز بين هذه المشاعر بناءً على الكلمات المحفزة والإشارات غير اللفظية، وبناء مسارات تصعيد مدروسة، تحديًا مستمرًا مع حلول عام 2026".

إن فن كونك إنسانًا يشمل الاعتراف بالأخطاء، وهي ميزة يدمجها المطورون بشكل متزايد في أنظمة الذكاء الاصطناعي.

قال جيجاسا جروفر، في ردٍّ عبر البريد الإلكتروني على أسئلةٍ وُجِّهت إليه: "تتتبّع نماذج التواضع المعرفي عدم اليقين بشكلٍ صريح، ممّا يسمح للذكاء الاصطناعي بالاعتراف بجهله بدلاً من التظاهر بالاتساق". جروفر مهندسة تعلّم آلي ومؤلفة كتاب صياغة البيانات للتعلّم الآلي" : الخطوة الأولى في التعلّم الآلي".

يرى غروفر تحدياً وفرصة للانتقال من "المحاكاة فائقة الواقعية إلى الذكاء الاصطناعي القادر على الحفاظ على الانتباه المشترك، والتفكير المنطقي في ظل الغموض، والمشاركة الفعالة في المحادثة مثل الإنسان، وليس مجرد التظاهر بأنه كذلك. هذا هو المكان الذي تكمن فيه القفزة التالية في التفاعل الشبيه بالبشر."