原创 基于大语言模型的医疗智能助手应用研究进展
创始人
2026-03-13 11:36:45

近年来,传统神经网络在图像识别[1]、数据分析[2]和结果预测[3]等方面取得了一定成就,但其在理解和生成复杂人类语言方面的能力稍显不足。以ChatGPT为代表的大语言模型(LLMs)以其强大的理解和人类语言生成能力为人工智能(AI)技术在医疗领域的发展注入了新动力,为智慧医疗提供了更为精准和高效的解决方案[4]。本文基于当前LLMs在医疗领域的常用技术方法特点,剖析其在医疗领域的具体应用场景,揭示该类模型在实际应用中的优势与局限。同时,结合行业发展趋势,探讨克服现有挑战的策略,以进一步挖掘LLMs在医疗领域的巨大潜力,为相关领域的研究者和从业者提供有价值的参考和启示。

1 LLMs概述

LLMs的技术路线主要包括三种,即基于解码器的ChatGPT系列[5]、基于编码器的BERT系列[6]和基于编码器-解码器的Llama系列[7]和ChatGLM系列[8]。据此分类方法可将开源的通用LLMs进行分类,结果如表1所示。

表1 个人计算机可运行的开源通用大语言模型

在通用LLMs的基础上应用领域适应技术再训练即可得到医学LLMs,目前主流的领域适应技术主要有预训练(pre-training)、微调(fine-tuning),或直接通过检索增强生成(RAG)技术和上下文学习(ICL)技术将通用 LLMs 与医学领域对齐而实现[14]。笔者结合此四种方法介绍从通用LLMs到医学 LLMs 的实现原理,并总结医疗领域LLMs的最佳实践流程。

1.1 预训练

预训练通常是指在大量医学文本语料库上训练LLMs,以使其学习丰富的医学知识,其核心是利用海量医学文本数据构建模型的基础知识体系。语料库包括电子病历[15]、临床记录和医学文献[16]。其中,PubMed、美国重症监护医学信息数据库(MIMIC)-Ⅲ[17]和PubMed Central是3个广泛用于医学 LLMs 预训练的英文医学语料库,对应的中文语料库有Huatuo-26M[18]、CBLUE[19]、cMedQA和CPubMed-KG等特色资源。通过此种大规模预训练,医学LLMs不仅能建立系统的医学知识表示,且能将学习的知识迁移应用于各类下游医疗任务,展现出强大的领域适应能力和任务泛化性能,辅助各类疾病的诊疗。

1.2 微调

医学 LLMs预训练过程面临成本高、耗时长的挑战,需庞大的计算能力和人工劳动予以支持,这对研究机构的计算基础设施和人力资源提出了极高要求。为应对这一挑战,研究人员提出了不同的微调方法,在减少计算成本的同时可保证模型能学习到特定领域的医学知识,以获得性能出色的医学 LLMs[20-22]。

目前的微调方法包括监督微调(SFT)、指令微调(IFT)和参数高效微调(PEFT)。其中SFT支持在不同类型的医学语料库上对通用LLMs进行微调,其对语料库的结构无特殊要求,既支持多轮的医患对话[23]、单轮的医学问题解答[21],也支持知识图谱[24],并根据训练语料的不同获得功能多样的医学LLMs。

IFT是在基于指令的医疗数据集上对通用LLMs进行微调,这些数据以人为设计的包括“指令-输入-输出”三元组格式的形式呈现[25],主要目的是增强模型遵循各种任务指令的能力,使其输出格式与医学领域相一致,从而生成更专业的医学LLMs。PEFT可大幅降低微调通用LLMs的资源需求,其核心思想是保持预训练LLMs中的大部分参数不变,通过微调最少参数给模型注入尽量多的知识。常用的PEFT技术包括低链适应(LoRA)[26]、前缀调整(prefix tuning)[27]和适配器调整(adapter tuning)[28]。

研究表明,PEFT可在保持模型性能的同时降低计算需求,对于有限资源条件下开发满足特定领域需求的LLMs极具应用价值。值得注意的是,不同微调策略产生的模型在知识专业性、临床实用性和计算效率等方面展现出明显的差异化特征,这为医疗AI开发者根据具体应用场景选择合适模型提供了重要参考依据。笔者总结了目前主流微调后的医学 LLMs的特征,见表2。

表2 部分医疗领域智能助手大语言模型

1.3 提示技术

与预训练相比,微调策略可显著降低计算成本,但微调亦需进一步的模型训练和高质量数据集,因此仍存在一定的计算资源和人工成本消耗。相比之下,利用基于提示技术(prompting)的方法可将通用LLMs适用场景拓展至医疗范畴,且无需训练任何模型参数,在医学LLMs开发领域具有极大的应用前景[29]。

目前主流的提示方法包括ICL[30]、思维链(chain-of-thought,CoT)[31]提示和RAG[32]。其中ICL可直接向大模型展示具体示例和任务演示,引导 LLMs 高效完成任务[30],其优势为无需大量的标注数据进行参数微调。根据输入示例的数量不同,该方法可分为零次提示(zero-shot prompting)、一次提示(one-shot prompting)和少量提示(few-shot prompting)。三者的核心差异在于示例数量和对模型任务理解的影响强度。在实际应用中,可根据任务复杂度、数据成本和模型能力选择适合的提示方法,例如简单任务通用零次提示,而复杂任务或高要求场景主要使用少量提示。

相较于ICL,CoT进一步提升了模型输出的准确性和逻辑性。其通过在提示词阶段模拟思维的推理过程,生成一系列提示词,促使模型在处理下游问题时产生推理的中间步骤。此方法不仅提高了LLMs响应的准确性,还使决策结果更具可解释性和可信度。

RAG基于将外部知识整合到LLMs生成过程的方式提高了模型性能。LLMs在开发过程中,不可避免地会产生看似合理实则错误的答案,此现象被称为“幻觉”问题。RAG 可通过整合外部数据库知识,最大限度地减少 LLMs 幻觉、模糊推理过程和对过时信息的依赖[33]。该方法的检索手段综合了各种索引策略和输入查询处理技术,可从外部知识库中搜索相关信息并进行排序,然后将检索的外部数据添加至 LLMs 的提示中,为生成的回复提供额外的补充信息。通过直接更新外部知识库,RAG 降低了与模型权重更新相关的灾难性遗忘风险,因此尤其适用于容错率低、信息快速发展的医疗领域。

1.4 讨论

为确保通用LLMs能够切实满足医疗领域的应用需求,研究人员需要首先系统评估其性能表现。如图1所示,研究团队采用渐进式实验方法:从基础的提示词设计入手,逐步引入更复杂的引导策略和专业领域知识,通过迭代优化不断提升模型表现,直至各项评估指标达到临床应用的标准要求。

图1 通用大语言模型应用到特定领域的一般技术步骤

2基于LLMs的医疗智能助手的主要任务

LLMs在医疗健康领域的核心价值主要体现在其卓越的生成能力上,此种能力为医疗行业带来了革命性的创新机遇。凭借其强大的语义理解和内容生成特性,基于LLMs的医疗智能助手在多个医疗场景中展现出极大的应用潜力,可有效提升医疗服务的精准性、可及性和整体质量。本文从临床决策支持、临床报告生成、聊天机器人三个方面阐述基于LLMs医疗智能助手的主要任务。

2.1 临床决策支持

临床决策很大程度上依赖于对患者病史、临床数据和最新医学文献等海量信息的综合解读[34]。LLMs能够快速理解和处理庞大的医疗数据和文献资料,从而生成可辅助医疗专业人员在各种临床情境中作出更理想决策的信息。此外,LLMs还能根据最新的临床证据和患者的个体情况生成个性化的治疗建议[35]。

构建一个性能出色的医疗决策辅助系统,其核心在于开发具有专业医学知识能力的医学LLMs。现有研究表明,通过融合权威医学知识体系可显著提升模型性能。以Gao等[36]的研究为例,该团队创新性地将统一医学语言系统(UMLS)的知识图谱集成到模型训练中,构建的医学LLMs在诊断准确率上实现了对GPT-3.5的超越(虽仍略逊于资深医学专家),同时能提供可靠的治疗建议。表3列举了该领域其他代表性研究成果。

表3 主流的临床决策支持大语言模型

在评估医疗决策系统的性能时,需结合具体任务选择合适的方法和评价指标,例如评价诊断准确率时,可根据实际任务分类,选用曲线下面积、精确度、召回率和F1分数等量化指标进行测评。值得注意的是,在对医疗决策系统进行性能评价时,所有评估必须纳入临床专家评审环节,以确保决策的科学性、合理性、可靠性,并避免潜在的安全隐患。

虽然LLMs在医疗诊断中极具潜力,但其固有的技术特性也带来了明显的应用限制。最突出的局限性体现在对患者文本信息的过度依赖上,这主要源于LLMs本质上是基于文本数据构建的模型架构,缺乏直接分析医疗诊断图像的内在能力,因此无法直接处理图像信息。考虑到现实的医学诊断通常依赖于视觉图像,而LLMs缺乏支持疾病诊断的具体视觉信息,因此LLMs通常无法在真实医疗场景中进行疾病诊断及预测,但其可作为高级逻辑推理引擎,增强基于视觉的智能诊断系统的决策能力,并生成诊断依据和解释说明。现有技术解决方案可采用两种途径突破这一限制[40]:包括医学影像的文本化转换(如放射学报告生成)或结合外部视觉编码器构建多模态系统。

2.2 临床报告生成

临床报告是记录患者放射学报告、出院总结或门诊病历的标准化文档,撰写临床报告是医护人员日常工作的重要组成部分。但人工撰写此类报告存在时间成本高、人为错误风险大、格式标准化欠缺等困境。LLMs可自动生成格式规范的临床报告,并通过知识库校验确保医学术语准确和内容完整,不仅提高了工作效率并可减少错误的发生[41]。在生成临床报告时,可将LLMs与视觉语言模型相结合。视觉语言模型可对医学影像进行分析并生成注释,与文本提示一起作为LLMs的输入,进而提高了报告内容的准确性和科学性。

放射学报告是临床报告的核心组成部分,也是临床报告撰写的难点之一。在开发智能放射学报告生成系统时,选择合适的医学视觉语言模型是关键。根据应用场景的广度和深度需求,现有的先进模型可分为两大类:其一是通用医学多模态模型,包括Med-Gemini[42]、LlaVA-Med[43]和Med-Flamingo[44]等,其适用于广泛的医学领域;其二是专科放射学模型,如ChatCAD[39]、MAIRA-1[45]和RadFM[46],其在放射学图像解读方面具有独特优势。

将LLMs与这些视觉语言模型深度融合,并针对特定领域的数据进行微调,可生成结果准确的放射学报告。放射学报告生成的另一种方法是利用LLMs对文本数据进行总结获得内容摘要。这可通过两种方式实现:即给单模态LLMs输入文字报告并生成摘要或给多模态LLMs输入文字报告和相关图像并生成摘要。ImpressionGPT[47]即为其中的经典案例,其创新性结合动态提示生成与迭代优化技术,能生成高度结构化的详细报告摘要。RadAdapt[48]则通过临床文本的预训练策略,并引入LoRA技术进行参数高效微调,在多项指标上达到了当前最优性能。

在评估基于LLMs的放射学报告生成系统的性能时,通常依赖于MIMIC-Ⅲ或MIMIC-Ⅳ数据集,其是目前规模最大且公开可用的电子健康记录数据库。常用的自动评估指标包括两类,一种是基于词汇匹配的方法,如BLEU、ROUGE和METEOR,用于衡量生成文本与参考报告的字面相似度,另一种是基于语义相似度的方法,如BERTScore,主要用于评估文本在语义层面的匹配度。

此外,针对放射学报告的特殊性,研究者还开发了专门的评估指标,如CheXbert相似度、RadGraph和RadCliQ,以更准确地评估放射学影像生成报告的质量和准确性[49]。上述模型和评估指标有助于创建基于LLMs的放射学报告生成应用程序,以准确高效地生成高质量报告,提高放射学人员工作效率。为确保生成内容的临床适用性,需建立系统化的评估体系,重点对报告内容的准确性及临床应用安全性进行全面验证[50]。

虽然相较于人类医生,LLMs能够生成更全面、精确的临床报告,但其仍面临诸多挑战:首先是模型易产生事实性幻觉问题,且倾向于对输入信息进行过度字面化解读,缺乏临床决策所需的假设推理能力;其次,生成的报告存在冗长的问题,需进行精简,以达到临床使用标准。该领域的评估工作同样面临挑战,主要表现为自动评估方法主要侧重于词汇指标,而忽略了逻辑评定,可能导致对报告中上下文信息的评估出现偏差。

2.3 聊天机器人

LLMs的快速发展为医疗服务带来了新的可能性。研究显示,训练有素的医疗聊天机器人能够生成高度拟人化的文本响应,使其可胜任帮助患者进行疾病咨询、检查预约、慢病管理等任务[51]。将此类智能化系统集成于医疗咨询系统中,不仅可为患者提供诊断辅助,同时可为患者提供就医前的指导和就医后的跟踪服务,从而加强对患者的全周期管理和全方位护理。例如,在就医前,系统通过自然语言理解技术解析患者的主诉,可为患者提供初步的医疗建议[52];在就医后,系统可持续监测、追踪患者的康复情况,智能提醒用药时间和必要的复诊安排,有助于提升医疗干预的连续性和完整性。典型案例Healthcare Copilot[53]将对话记忆和对话处理组件相融合,基于历史对话数据的上下文增强机制实现了患者与聊天机器人的安全互动,并自动生成结构化会诊摘要功能。

以 Healthcare Copilot为代表的智能化系统展示了LLMs在医学领域中提供高质量、AI驱动的诊疗咨询、个性化患者健康管理及构建科学赋能的连续性照护体系方面的应用潜力。随着生成式AI在医学领域的应用不断推进,对其安全性和准确性的评估也已成为领域内面临的挑战之一[54]。

现有研究主要采用准确率、精确度、召回率和F1分数等传统机器学习指标[55]进行性能评估,但这些量化指标难以全面反映系统在真实医疗场景中的实际应用效果。因此,建议建立更加完善的评估体系,重点关注以下三个维度:

1.临床诊断的准确性;

2.患者体验满意度;

3.对最新医疗指南和诊疗规范的遵循程度。

3小结

本文系统梳理了LLMs在医学领域中的最新进展,重点总结了智能助手相关任务的应用现状。研究首先从领域自适应技术的角度出发,阐述了如何将通用LLMs转化为专业医疗领域模型的核心方法。在此基础上,深入分析了LLMs在医疗场景中的多元化应用,包括智能化决策支持、临床文档自动生成、医患交互机器人等典型任务,并通过实证案例验证了这些技术对提升医疗服务效率与质量的显著作用。

在技术演进方面,当前研究呈现出三个显著特征:一是多模态融合技术的突破,通过整合视觉、文本和音频等多源数据,为构建更为更智能的医疗AI大模型提供支持;二是参数高效微调等创新方法的引入,大幅降低了模型训练对计算资源的依赖;三是生成式大模型结合上下文学习能力的提升,推动了诸如临床报告生成等专业场景的技术革新。

然而,医疗LLMs在应用中仍面临诸多挑战,其中需要首先关注的即为数据安全与隐私保护问题,其涉及患者自主权维护、医疗数据保密性及防泄露机制。应用开源模型可降低对第三方服务的依赖,增强数据安全性,有望缓解上述问题。其次为模型可靠性问题。为提高模型输出的准确性,需持续更新知识库并建立科学的验证体系。

最后,模型的临床适用性问题。将大模型与已建立的医学理论、确定性模型或结构化数据相结合,可增强其实用性。同时,构建“人类-AI”协同工作机制既可优化临床决策,又可减轻医务人员工作负担。未来研究应聚焦于实证研究,以验证AI在真实医疗场景中的有效性,并深入评估智能系统对临床决策模式的影响。这将有助于解决实际挑战,完善LLMs在医疗保健领域的策略部署,确保其同时兼顾疗效和伦理方面的要求,继而推动LLMs在医疗领域的规范化应用,实现技术创新与医疗价值的有机统一。

(本文编辑:董哲)

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

惠达卫浴AWE2026“另类”... 3月12日至15日,2026年中国家电及消费电子博览会(AWE)在上海新国际博览中心盛大启幕。作为全...
央视机器人走进大国品牌,箭牌卫... 海新国际博览中心W4馆,鸿蒙智选展区的核心动线上,一个展位被围得水泄不通——鸿蒙智选箭牌雷达浴霸、智...
华境是华为旗下的品牌吗?答案比... 近年来,华为在智能汽车领域的影响力不断扩大,围绕其技术展开合作的品牌也日益增多。其中,以“界”和“境...
当造车回归本质,合资品牌的“体... 当喧嚣褪去,市场终于开始回归对“车”本身的尊重。 过去两年,汽车行业经历了一场前所未有的“快节奏革命...
拒绝被定义!smart携手Je... 3月11日,新奢智能电动汽车品牌smart官宣与英国实力唱将Jessie J达成全球合作,邀其出任品...
读懂「三宅一生」,就读懂了品牌... 刚刚结束的巴黎时装周, 堪称一场百年品牌的集体换血大戏。 从 Chanel、Balmain 迎来新任...
紫光股份:2025年公司在海外... 证券之星消息,紫光股份(000938)03月12日在投资者关系平台上答复投资者关心的问题。 投资者提...
包头市青山区:鹿城灯会“火”出... 三月春风拂面,在刚刚过去的第116个“三八”国际妇女节期间,2026鹿城灯会点亮温情时刻,这里以专属...
上汽乘用车锚定战略航向,荣威、... 3月10日,上汽乘用车销售公司2026年春季媒体沟通会在京拉开帷幕。上汽乘用车副总经理、上汽乘用车销...
继极氪之后,又一吉利系品牌大规... 继极氪之后,吉利控股集团旗下的又一品牌因电池安全隐患主动召回。 近日,国家市场监督管理总局信息显示,...