كشف فريق من الباحثين الطبيين في كلية شوليش للطب وطب الأسنان بجامعة ويسترن الكندية، عن جانب غير مكتشف من برنامج LLM Chat GPT فيما يخص التشخيص الطبي وفقا لما نشرته مجلة PLOS ONE
قال الباحثون: “إنه على الرغم من تدريبه على عدة تيرابايت من البيانات، فإن البرنامج الذكي ما يزال غير جيد في تشخيص الأمراض البشرية”.
ودرب الفريق أثناء الدراسة برنامج LLM الشهير على 150 دراسة حالة طبية من Medscape، وهو موقع على الإنترنت أنشأه ويستخدم المتخصصون الطبيون لأغراض إعلامية وتعليمية كما زود الفريق البرنامج بمعلومات حول تاريخ المرضى ونتائج المختبر ونتائج الفحص المكتبي، ثم طُلب منه تقديم تشخيص مناسب أو وضع خطة علاج ،ثم تم تصنيف النتائج بناء على مدى اقتراب LLM من التشخيص الصحيح ،كما قاموا بتصنيفها بناء على مدى جودة الإبلاغ عن المنطق وراء الوصول إلى التشخيص، بما في ذلك تقديم الاستشهادات (وهو جزء مهم من التشخيص الطبي) ووجدوا أن LLM أعطى تشخيصا صحيحا بنسبة 49٪ فقط من الوقت.
وأوضحت الدراسة أنه على الرغم من تسجيل LLM لنتائج ضعيفة، إلا أنه قام بعمل جيد في وصف كيفية الوصول إلى التشخيص، وهي سمة يقترحها الفريق، وقد تكون مفيدة لطلاب الطب كما لاحظ الفريق أن LLM كان جيدا بشكل معقول في استبعاد الأمراض المحتملة.