AI资讯 / 发布于 2026.5.4 3:09

在哈佛大学的研究中，人工智能比两名人类医生提供了更准确的急诊室诊断

一项新的研究考察了大型语言模型在各种医疗环境中的表现，包括真实的急诊室病例，其中至少有一个模型似乎比人类医生更准确。

这项研究发表在本周的《科学》杂志上，来自哈佛医学院和贝斯以色列女执事医疗中心的医生和计算机科学家领导的研究小组。研究人员表示，他们进行了各种实验来衡量OpenAI的模型与人类医生的模型相比如何。

在一项实验中，研究人员重点关注了进入Beth Israel急诊室的76名患者，将两名内科主治医生提供的诊断与OpenAI的o1和4o模型生成的诊断进行了比较。这些诊断是由另外两名主治医生评估的，他们不知道哪些来自人类，哪些来自人工智能。

研究称：“在每个诊断接触点，o1的表现要么名义上优于或与两位主治医生和4o相当，”并补充说，这种差异“在第一个诊断接触点（初始ER分诊）尤其明显，因为此时有关患者的可用信息最少，而且最迫切需要做出正确的决定。”

在哈佛医学院关于这项研究的新闻稿中，研究人员强调，他们根本没有“预处理数据”——人工智能模型所提供的信息与每次诊断时电子病历中的信息相同。

有了这些信息，o1模型成功地在67% 的分诊病例中提供了“准确或非常接近的诊断”，相比之下，一位医生的诊断准确率是55%，而另一位医生的诊断准确率是50%。

哈佛医学院人工智能实验室负责人、该研究的主要作者之一阿琼·曼莱 (Arjun Manrai) 在新闻稿中表示：“我们几乎针对所有基准测试了人工智能模型，它超越了之前的模型和我们的医生基线。”