چتباتهای هوش مصنوعی با وجود موفقیت در آزمونهای حرفهای پزشکی، همچنان در انجام یکی از مهمترین وظایف پزشکان، یعنی تشخیص بیماری از طریق گفتگو با بیماران، با مشکل مواجه هستند.
تحقیقات جدید نشان میدهد که دقت این مدلها هنگام تعامل با بیماران شبیهسازیشده به شدت کاهش مییابد.
بر اساس مطالعهای که توسط پژوهشگران دانشگاه هاروارد انجام شده است، مدلهای هوش مصنوعی مانند جیپیتی ۴ از اوپن ای آی در آزمونهای چندگزینهای پزشکی عملکردی قابل توجه با دقت ۸۲ درصد داشتند، اما در تشخیص بیماری از طریق مکالمه با بیماران شبیهسازیشده، دقت آنها به ۲۶ درصد کاهش یافت.
پژوهشگران برای ارزیابی این مدلها از ۲۰۰۰ پرونده پزشکی استفاده کردند که بیشتر از آزمونهای هیئت پزشکی آمریکا استخراج شده بود. در این فرآیند، مدل جیپیتی ۴ نقش بیمار شبیهسازیشده را ایفا کرد و با مدلهای هوش مصنوعی دیگر که در نقش پزشک بودند، گفتگو کرد. نتایج این گفتگوها توسط کارشناسان پزشکی نیز بررسی شد.
نتایج نشان داد که مدلهای هوش مصنوعی نه تنها در جمعآوری کامل اطلاعات پزشکی بیمار ناتوان بودند، بلکه حتی در صورت دریافت اطلاعات کامل نیز همیشه قادر به ارائه تشخیص درست نبودند. برای مثال، مدل جیپیتی ۴ تنها در ۷۱ درصد مکالمات موفق به جمعآوری اطلاعات کامل شد.
پراناو راجپورکار، پژوهشگر ارشد این مطالعه، میگوید: «عمل پزشکی در دنیای واقعی بسیار پیچیدهتر است و شامل عواملی مانند مدیریت چند بیمار، هماهنگی با تیمهای درمانی و درک عوامل اجتماعی و سیستمی میشود.»
به گفته او، هوش مصنوعی میتواند به عنوان یک ابزار کمکی در پزشکی موثر باشد، اما جایگزینی برای قضاوت جامع پزشکان نخواهد بود.