百川开源全球最强医疗大模型M3,在医疗领域超越GPT-5.2
创始人
2026-01-14 02:32:03

来源:猎云网

1月13日,百川智能宣布正式开源新一代医疗大模型 Baichuan-M3。

据悉,Baichuan-M3在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以44.4分的成绩夺冠。这一成绩,不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。

随着监督信号持续变细、变难,模型得以不断突破能力上限,使 M3 在复杂医学问题上的表现实现跃迁,成为当前全球医疗沟通和推理能力最强的医疗大模型。

此外,百川M3将医疗幻觉抑制前移至模型训练阶段,在强化学习过程中将医学事实一致性作为核心训练目标之一,将“知之为知之,不知为不知”直接作用于模型自身能力的形成过程。这一新的训练方法将医学事实可靠性内化为M3自身的基础能力,使其在不借助任何外部系统的情况下,依然能够基于自身医学知识进行稳定、可信的作答。

通过将事实一致性约束融入训练流程,M3重构了幻觉抑制的训练范式,在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2,达到全球最低水平。

除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。

在过去医疗大模型的应用实践中,其不围绕关键风险点展开的信息收集,即便对话看似完整,也难以支撑安全、可靠的临床判断,从根本上偏离了医疗“安全第一”的原则。

针对这一行业困境,我们提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

围绕SCAN原则,我们借鉴医学教育里长期使用的 OSCE 方法,联合 150 多位一线医生,搭建了 SCAN-bench 评测体系,该体系以真实临床经验作为“标准答案”,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程。相比于HealthBench,SCAN-bench是更加全流程端到端的动态评测新范式。

同时,我们还使用原生模型训练方法取代角色扮演prompt,针对GRPO无法稳定进行长对话训练的问题,设计了新的 SPAR 算法,使模型能够在有限对话轮次中,把临床真正需要的关键问题问全、问准,把风险兜住,让输出经得起复核。

在实验过程中我们发现,问诊准确度每增加2%,诊疗结果准确度就会增加1%。评测结果显示,M3 在SCAN的四个维度均显著高于人类医生基线水平,并大幅领先于国内外顶尖模型,成功构建了从精准的临床问询、深度医学推理到安全可靠决策的闭环。

M3具备的原生的“端到端”严肃问诊能力,使它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

当前,百川智能的医疗应用“百小应”已同步接入 M3,面向医生与患者开放相关能力。医生可借助它推演问诊与诊疗思路,患者及家属也可通过该应用更系统地理解诊断、治疗、检查与预后背后的医学逻辑。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

贺娇龙同志意外逝世 据澎湃新闻消息,记者从贺娇龙团队相关方面获悉,新疆维吾尔自治区农产品品牌建设与产销服务中心(新疆维吾...
原创 中... 当美国的手伸向委内瑞拉的石油命脉,一场全球能源与外交的暗战骤然升级。两艘中国油轮被迫在大西洋上掉头,...
“等生了孩子”“等还完房贷”,... 近日,火星人集成厨电在上海地铁站内投放的1.68万元“松口气套餐”广告,被质疑是在“贩卖焦虑”,引发...
伊朗军队司令:伊朗作战能力较以... 当地时间1月13日,伊朗陆军总司令哈塔米表示,经历此前以伊冲突后,伊朗武装力量在应对相关安全威胁方面...
斯考拉申请用于检查挤出装置设定... 国家知识产权局信息显示,斯考拉有限公司申请一项名为“用于检查挤出装置的设定的设备和方法”的专利,公开...
新西兰北岛发生枪击事件 已致1... 当地时间1月14日,新西兰北岛发生一起枪击事件,造成1人死亡、3人重伤。 警方表示,伤者情况危急,已...
仅$29!IKEA这款宝贝被抢... 澳洲名厨、RecipeTin Eats创始人Nagi Maehashi一句话,直接把大家都送去了IK...
2026年快消品B2B系统推荐... 引言:慢增长时代下的快消品行业数字化突围 2026年,中国快消品市场正式进入增速0.9%的"慢时代"...
快消品牌舆情怎么收费 在商业环境中,品牌声誉的管理至关重要,尤其对于产品迭代迅速、与消费者日常生活紧密相连的快消品牌而言。...
2026家居与快消品仓储托管智... 2024家居与快消品仓储托管智能系统推荐指南 《2023年中国仓储物流行业发展白皮书》显示,63%...