دراسة سريرية تكشف الفجوة بين الحوسبة القائمة على الذكاء الاصطناعي والحكم البشري.
أجرت كلية Icahn للطب في جبل سناء دراسة حديثة قيّمت نسخةً من برنامج ChatGPT مُخصصة للحالات الصحية، باستخدام 60 سيناريو لمرضى من إعداد أطباء.
كانت النتائج مهمة، إذ سلطت الضوء على جدوى نماذج اللغة الكبيرة في الطب. والخلاصة الرئيسية هي: في 52% من الحالات التي أجمع الأطباء على ضرورة تلقيها رعاية طارئة، لم يُوصِ برنامج ChatGPT بها.
وقد أظهر البرنامج أداءً جيدًا في الشكاوى الروتينية وحالات الطوارئ النموذجية التي كانت أعراضها واضحة.
لكنه واجه صعوبة في الحالات المُبهمة، حيث كانت العلامات السريرية دقيقة، وكان لخطأ التشخيص عواقب وخيمة.
لنفترض مريضًا يعاني من ألم في البطن أو حمى مجهولة السبب. قد لا تبدو الأعراض خطيرة. فالعلامات الحيوية ليست حادة بعد، والنتائج المخبرية غير مكتملة. الطبيب الخبير يستشعر مسار المرض، لا مجرد لقطة عابرة.
هذا الاستشعار غالبًا ما يؤدي إلى تصعيد الحالة قبل الوصول إلى التشخيص النهائي.
إن منحنى U المقلوب الذي كشفت عنه الدراسة ليس مجرد نقد للمنتج، بل هو في رأيي بصمة معرفية للذكاء الاصطناعي، ويستحق بالتأكيد دراسة متأنية.
يكشف التصميم المعماري عن نفسه
لم يفشل النظام بسبب تهوره، بل تصرف وفقًا لتصميمه. تُعدّ نماذج التعلم الخطي محركات حسابية، فهي تجمع الأنماط عبر مجموعات بيانات ضخمة وتُنتج استجابات متسقة إحصائيًا ضمن بيانات التدريب.
تعكس برود هذه الجملة الصلابة الحسابية التي تُعتبر، في رأيي، مناقضة وظيفياً للإدراك البشري.
ببساطة، عندما يكون الهيكل واضحًا، تتفوق هذه النماذج. أما عندما يتقاطع الغموض مع المخاطرة، فنشهد ظهورًا خطيرًا لهشاشة الحساب.
في تلك المنطقة الرمادية، لا يكتفي الطبيب بحساب الاحتمالية فحسب، بل يميل إلى ترجيح العواقب.
فإذا وُجد احتمال ضئيل لنتيجة سيئة، يكون التصعيد هو الخيار الأمثل في أغلب الأحيان، وهو تصعيد قد لا يُحقق أفضل النتائج الإحصائية. ولكن الأهم من ذلك، أنه يعكس تقديرًا لما سيحدث إذا كان التقييم خاطئًا. يتحمل كل من الطبيب والمريض تبعات النتيجة، وهذا التفاوت في المخاطر هو ما يُحدد القرار.
تُحسّن الحسابات نتائجها ضمن معايير محددة، ويمكن ضبط تقييم المخاطر في النموذج ليكون أكثر حذرًا.
مع ذلك، لا يخضع النموذج لتأثيرات النتائج الفعلية، بل يُنتج ما يُناسب التوزيع على أفضل وجه، ولا يُدرك خطورة الخطأ.
تُعرف OpenAI أداتها الصحية بأنها داعمة وليست تشخيصية، وهذا التمييز مهم. ومع ذلك، تُبرز الدراسة ما قد يحدث عند الخلط بين الاتساق والسلطة السريرية.
الحساب والحكم
وهذا يقودنا إلى تمييز أوسع. فالحسابات تتبع قواعد، حتى وإن كانت احتمالية. وهي تعمل ضمن أطر محددة ببيانات التدريب ووظائف الهدف.
ويمكنها أن تكون شاملة ضمن حدودها. ولكن إليكم الفرق. فالحكم يعمل بشكل مختلف، إذ يفسر المواقف التي لا تندرج ضمن فئات محددة مسبقًا.
فالحكم البشري يسأل عما هو مهم هنا، وليس فقط ما هو الأكثر احتمالًا، ويعيد النظر في الإطار نفسه عند الضرورة.
لا شك أن الذكاء الاصطناعي تقنية بالغة الأهمية في الطب، وسيلعب دورًا متزايد الأهمية. مع ذلك، من الضروري أن ندرك أننا نتعامل مع نمطين مختلفين من الذكاء.
وقد يُنتج هذان النمطان نوعًا من الذكاء المتباين الذي يمكن أن يعمل بتكامل. يُمثل الذكاء الاصطناعي الحالي توسعًا هائلًا في القدرات الحاسوبية.
أما الإدراك البشري ، في جوهره، فهو إدراكي بالمعنى الكلاسيكي، ويتجلى في كل من النتائج والتجارب الشخصية.
الطلاقة ليست حكمة
عندما يُنظر إلى الطلاقة على أنها حذر، فإننا نخاطر بتكليف الأنظمة الحاسوبية بأدوار تعتمد على التقدير الشخصي.
في الطب، قد يظهر هذا الالتباس سريعًا. أما في الحياة اليومية، فقد يكون الأمر أقل وضوحًا. فنحن نستعين بالخوارزميات للحصول على التوصيات والتصنيفات.
وفي هذا السياق، نبدأ في التعامل مع القرارات على أنها مسائل تتعلق بالكفاءة.
لم أزعم قط أن الذكاء الاصطناعي معيب أو حتى خبيث. إنه مختلف. ما وصفته بمناهضة الذكاء ليس غياب الذكاء، بل هو انقلاب بنيوي له.
إنه يُنتج تماسكًا دون أي حياة داخلية. يُولّد إجابات دون أن يسكن العالم الذي تُولد فيه تلك الإجابات وتموت. هذا التمييز بالغ الأهمية عند تقاطع الغموض والتبعات.
تقدم النتائج السريرية الحديثة تذكيراً هاماً. لم يظهر الضعف في حالات الطوارئ الواضحة أو الشكاوى البسيطة، بل برز عند التقاء التفسير مع نوع من الحذر الأخلاقي والسريري. هذا ليس خللاً في الذكاء الاصطناعي، بل هو انعكاس لبنيته.
مفترق طرق في إدراكنا
سيستمر الذكاء الحسابي في التوسع، وهذا التوسع قيّم ومُغيّر. فهو يُعزز الرعاية السريرية والبحث العلمي، بل وحتى التواصل مع المرضى.
وفي الوقت نفسه، علينا أن نُدرك بوضوح ماهية التقدير ومواضع أهميته. فالتقدير ليس مجرد تعديل بسيط في تدريب الحاصلين على درجة الماجستير في القانون، بل هو بمثابة توجيه في عالم تُقاس فيه النتائج.
بالنسبة لي، يتجاوز السؤال الأعمق مجرد ما إذا كانت الآلات ستصبح أكثر قدرة، فهذا جواب بديهي. السؤال هو ما إذا كنا نحن - الأطباء والمعلمون والآباء - نبقى منتبهين للفرق بين التحسين والمسؤولية.
إذا تلاشت هذه الفروقات، فلن تكون التكنولوجيا وحدها هي التي ستتغير، بل قد يبدأ إدراكنا بالانحياز نحو ما هو أسهل حسابيًا.
كانت دراسة جبل سيناء تقييمًا سريريًا، لكنها تحمل في طياتها أيضًا طابعًا فلسفيًا. وقد أشارت لي إلى أن الذكاء له أكثر من شكل واحد، وليس مجرد مزيج مُقتبس من صفحات رواية خيال علمي.








