تزعم شركة OpenAI أن أحدث نماذجها تتفوق على الأطباء في الأداء الطبي

أصدرت شركة OpenAI معيارًا جديدًا لأنظمة الذكاء الاصطناعي في مجال الرعاية الصحية، يُسمى HealthBench، وهو مصمم لتقييم مدى كفاءة نماذج اللغة في التعامل مع المحادثات الطبية الواقعية. وتقول OpenAI إن أحدث نماذجها تتفوق على الأطباء في هذا الاختبار.

تقول الشركة إن الاختبارات السابقة لم تكن كافية: لم تعكس التفاعلات الواقعية بين الطبيب والمريض، ولم تتضمن مدخلات من خبراء طبيين، ولم تكن مفصلة بما يكفي لقياس تقدم النماذج الجديدة. ولحل هذه المشكلة، تعاونت OpenAI مع 262 طبيبًا من 60 دولة. وأنشأوا معًا 5000 سيناريو طبي واقعي عبر 26 تخصصًا و49 لغة.

يغطي HealthBench سبعة مجالات طبية، من رعاية الطوارئ إلى الصحة العالمية. يتم تقييم كل إجراء من إجراءات الذكاء الاصطناعي عبر خمس فئات: جودة الاتصال، واتباع التعليمات، والدقة، والفهم السياقي، والاكتمال. في المجمل، يطبق النظام 48000 معيار تقييم معتمد طبيًا.

يتم إجراء التقييم بواسطة GPT-4.1. لاختبار مدى موثوقيته، قارنت OpenAI درجات النموذج بدرجات الأطباء البشريين. أظهرت النتائج أن أحكام GPT-4.1 تطابقت مع أحكام البشر بنفس مستوى الاتساق تقريبًا الذي لوحظ لدى الأطباء.

تزعم OpenAI أن أحدث نماذجها، GPT-4.1 وo3، تفوقت على الأطباء في منصة HealthBench. في الاختبارات الأولية التي أُجريت في سبتمبر 2024، تمكن الأطباء من تحسين نتائج النماذج القديمة بتعديلها، بينما سجل الأطباء الذين لم يستخدموا أي مساعدة أدنى نتيجة. ولكن بحلول أبريل 2025، تغيرت النتائج: تفوق GPT-4.1 وo3 على الأطباء حتى بدون أي تدخل أو تعديل إضافي.

In all five domains, GPT-4.1 and o3 scores match or exceed human doctors' responses.

تشير OpenAI إلى أن هذه المقارنة تنطوي على قيود مهمة. لا يكتب الأطباء عادةً ردودًا على الأسئلة الطبية بأسلوب الدردشة، لذا لا يعكس هذا الاختبار كيفية عمل الرعاية السريرية فعليًا. بل يختبر مدى كفاءة نماذج اللغة في التعامل مع نوع محدد جدًا من التواصل، والذي قد يكون أكثر فعالية للذكاء الاصطناعي منه للطبيب.

بناءً على البيانات الخام، حقق نموذج o3 درجة 0.60 في الاختبار، أي ما يقرب من ضعف درجة 0.32 التي حققها نموذج GPT-4o في أغسطس 2024. ولم يقترب من هذا المستوى سوى عدد قليل من النماذج المنافسة: فقد سجل Grok 3 من xAI درجة 0.54، وسجل Gemini 2.5 من Google درجة 0.52.

في مجال الرعاية الصحية، قد تفوق إجابة خاطئة واحدة عشرات الإجابات الصحيحة. يتضمن HealthBench اختبار إجهاد لتقييم أسوأ السيناريوهات: ما مدى فائدة الإجابة الأقل فائدة التي يقدمها النموذج؟ تقول OpenAI إن أحدث نماذجها تُظهر تحسينات كبيرة في هذا المجال أيضًا، لكنها تُقر بأنه لا يزال هناك الكثير من العمل الذي يتعين القيام به.

تُعدّ الكفاءة جانبًا مهمًا آخر. تزعم OpenAI أن نموذج GPT-4.1 nano المدمج أكثر كفاءة بمقدار 25 مرة من نموذج GPT-4o السابق، الذي تم إصداره في أغسطس 2024، مع استمراره في تحقيق نتائج أفضل. قد يُسهّل هذا الوصول إليه في البيئات محدودة الموارد.

لدعم المزيد من الاختبارات، أصدرت OpenAI مجموعتي بيانات إضافيتين: HealthBench Consensus وHealthBench Hard. تتضمن مجموعة Consensus فقط معايير الاختبار المُختبرة بعناية، بينما تحتوي مجموعة Hard على 1000 حالة صعبة للغاية حيث لا تزال معظم النماذج تفشل.

جميع بيانات الاختبار وطرق التقييم متاحة على GitHub. كما نشرت OpenAI ورقة بحثية مُفصلة تُشجع الباحثين على الاعتماد على هذا المعيار. يمكنك تجربة جميع النماذج الشائعة دون قيود على BotHub – لستَ بحاجة إلى VPN للوصول إلى الخدمة، ويمكنك استخدام بطاقة روسية. اتبع الرابط للحصول على 100,000 رمز مجاني لمهامك الأولى، وابدأ العمل الآن!

Source