哈佛最新研究：用AI大型语言模型看病 80%的初步诊断都是错的

2026年04月15日 18:52:15

财联社4月15日电，美国哈佛医学院的一个研究团队评估了20几种最先进的AI大型语言模型（LLM）的诊断能力，其中包括ChatGPT、DeepSeek、Gemini和Claude。结果显示，基于患者的初步症状和体征进行“鉴别诊断”（识别可能的疾病）的错误率高达80%。这项研究进一步显示，在患者提供更多检测结果后，大模型可以将“最终诊断”的失败率降至40%左右。研究人员表示，这意味着AI聊天机器人需要通过充分的患者信息，才能对疾病作出更为精准的诊断，患者无法提供完整的健康检测信息时，AI提供的结果并不可靠。研究人员还强调：“人工智能尚未达到无需医疗专业人员干预即可为患者做出诊断决策的水平。” (第一财经)