普瑞纯证

ChatGPT-4 高分拿下美国神经外科医师资格笔试、口试,下一个职业会是什么?

近日,在由耶鲁大学、冷泉港实验室、BMJ出版集团联合发行的 medRxiv 预印本资料库刊发了一项关于研究人员基于大语言模型(LLM)以美国神经外科委员会医师资格口试内容为问答主体,对多种大语言模型回复内容进行量化评估形成的总结报告。其中,研究对象包括了ChatGPT-3.5、ChatGPT-4和Google Bard。



背景信息

在最近发表的一些研究中,3款大语言模型都表现出了在含多项选择题的笔试环节中的高通过率。例如,在500题为题库的模拟神经外科医师资格笔试场景下,其正确率超过了73.4%。同时,在23年3月发布的GPT4相较于之前的版本,在模拟美国医学执照考试(USMLE)场景下的得分率提高了近20%。


但是在针对特定高风险的医学学科(如神经外科)的高阶知识内容或图片信息交互的方面是没有研究信息予以支持的,本内容就是针对此块的研究(公众号后台回复“medRxiv”获取内容原文和研究统计数据)。


研究结论


本研究以神经外科医师资格口试为场景设计,选择149道来自于备考题库的内容,ChatGPT-4 的得分为 82.6%,优于ChatGPT-3.5的 62.4%。此外,ChatGPT-4 在脊柱专项方面的表现明显优于 ChatGPT-3.5(90.5% 对 64.3%)。


Google Bard 为 44.2% (66/149) 的问题生成了正确的答案,对 45% (67/149) 的问题做出了错误的回答,同时拒绝回答 10.7% (16/149) 的问题。



由于ChatGPT-3.5 和 ChatGPT-4 从不拒绝回答基于文本的问题,而 Bard 会选择拒绝回答部分问题。


有趣的是,虽然 ChatGPT-4 在基于图像识别等问题上的表现优于 ChatGPT-3.5(68.6% 对 47.1%),但其表现与 Google Bard 相当(68.6% 对 66.7%)。


研究者表示,ChatGPT-4之于ChatGPT-3.5的性能和准确性迭代是超乎预期的,随着医疗场景面临越来越多开放式的挑战,口试环节的必要性和重要性日益凸显,随着AIGC领域的进步,如何提升其信任度和在高阶内容下的表现验证,继而确保这些内容可以安全有效的整合进临床诊断或决策中是迫切需要面对的。



更多与医疗器械有关AIGC内容,欢迎点击下方图片或与我们的咨询顾问进行了解。



-普瑞纯证官方咨询顾问-

-获取最新业内资讯-


关于我们



普瑞纯证是行业领先的全球化AI赋能生命科学服务商,我们的全球服务网络覆盖了包括中国、美国、英国、德国、荷兰、波兰、香港等多个国家和地区。

依托法规认证与临床经验丰富的全球顶尖专家服务团队,普瑞纯证为医疗器械、体外诊断产品等提供全球市场合规准入的全流程咨询服务,以及海外临床试验等一站式解决方案。100+ 国家准入,1000+ 海外注册/认证成功案例,60万+ 全球经销商数据,100万+ 全球临床试验数据,300万+ 全球医械注册数据。从市场战略到法规咨询,助力您的产品全方位顺利合规走向全球市场!