万字长文|迈向电商大模型时代,从虚拟试穿聊到电商AIGC
创始人
2025-12-29 16:52:34

演讲嘉宾|李岩博士,京东零售视觉与 AIGC 部负责人

策划|李忠良

2025 年,虚拟试衣已成为电商行业不可或缺的核心环节,从技术落地到商业变现,全行业都在加速布局这一赛道。那什么是虚拟试衣?其背后的核心技术方案有哪些?国内外电商大厂又有哪些典型实践案例?如何突破技术瓶颈,打造更贴合用户需求的试穿体验?电商平台又该如何构建完整的 AIGC 能力矩阵?

本文中,我们特别邀请到京东零售视觉与 AIGC 部负责人李岩博士,带来《迈向电商大模型时代,从虚拟试穿到电商 AIGC》的深度分享,为你拆解虚拟试衣的技术逻辑、行业实践与未来趋势,解锁电商 AIGC 的全域布局思路。以下是根据李岩博士在 AICon2025 北京场的演讲整理成的文字。

各位同学,大家上午好,我是来自京东零售的李岩,目前负责京东电商 AIGC 相关业务的产品、研发与算法。今天,我想和大家分享的主题是《迈向电商大模型时代,从虚拟试穿到电商 AIGC》。这个话题,相信在座很多深耕电商领域,尤其是聚焦服饰时尚赛道的朋友会格外关注,也希望我今天的分享能给大家带来一些启发与收获。

这是我今天分享的核心内容。首先,我会为大家讲解什么是虚拟试穿;紧接着,带大家回顾虚拟试穿的技术发展历程,这里也建议在座做生成技术的同学重点关注。

之后,我会深度拆解行业内几家主流虚拟试衣产品的核心能力;再为大家介绍京东在虚拟试穿领域的探索,以及我们在实践中沉淀的经验与教训。在此基础上,我还会分享京东零售 AIGC 布局的全景图;最后,和大家聊聊我个人对整个行业未来发展的观点与展望。

我们现在开始进入第一部分,什么是虚拟试穿。

虚拟试衣的底层逻辑其实很简单,就是 A+B=AB。这里的 A 指的是模特的图片或视频,B 则是服饰图。我们通过视觉生成技术,把服饰“穿”到模特身上,最终以静态或动态的效果呈现给用户。整个过程的核心要求,就是必须保证模特与服饰的关键信息不被破坏、不被篡改。这个原理相信大家都能轻松理解,接下来,我会从不同维度为大家梳理虚拟试衣的分类。

首先,我们从服饰呈现形式来看分类。服饰的素材形态主要有三种:一是平铺的白底服饰图,二是真人模特上身的服饰图,三是假人台模特上身的服饰图。其次,我们以服饰数量为划分标准,这一类可以分为单件服饰和多件服饰两类。

单件服饰涵盖上装、下装、长款连衣裙以及单件内衣等;多件服饰则是多种单件服饰的组合搭配,这里鞋子、包包、配饰等,也都在虚拟试衣的服务范畴之内。以上就是从服饰的不同维度对虚拟试衣进行的分类。

接下来,我们换个角度,从模特的视角来拆解虚拟试衣的分类。从模特类型来看,可分为全身模特、半身模特、多人模特以及视频模特;从输出形态来看,则可以分为静态图像模特和动态视频模特两类。

讲到这里大家不难发现,虚拟试衣任务的输入条件其实是相当丰富且复杂的。因此,一个优质的虚拟试穿算法,需要对上述所有的组合矩阵都具备良好的适配能力。而截至目前,要实现这一点,依然存在不小的技术挑战。

接下来我们聊聊为什么我们要做虚拟试衣,我打算从三个不同的视角,给大家展开说明。首先看大环境,三年的口罩,直接推动了服饰行业从线下向线上的转移。

2019 年中国服饰的线上销售额占整体零售额的 25%~30%,到 2023~2024 年,这个比例已经提升至 40%,而 2025 年更是突破了 50%。这意味着,如今人们已经越来越习惯在线上购买服饰。

再从消费者的视角来看,很多用户都十分在意购物的便捷性和私密性。有调研显示,65% 的女性和 54% 的男性对传统实体试衣间感到不自在、不方便。大家可以想象,消费者要在狭小的空间里完成脱衣、穿衣甚至换鞋的操作,到了冬天,衣服厚重繁琐,体验只会更差;同时,公共试衣区域还存在疾病交叉感染的风险。

这类弊端还有很多,我就不一一列举了。而用户天然就有看到服装上身效果的需求,所以相比于线下场景,AI 试穿堪称服饰线上零售在体验上的“最后一公里”。

最后我们站在商家的视角分析,这里有一张图,可能经常网购的女生会了解这个梗,现在有不少无良买家会做“穿完即退”的操作,尤其是礼服类服饰,穿着新衣服拍照打卡、出席活动后,就无理由退货,导致衣服沾染污渍异味,商家根本无法二次销售。

为此,商家想出了用“大尺寸 + 硬质材料”的“巨型吊牌”,来对这种恶意退货进行物理防御。抛开这个梗不谈,高退货率一直是服饰电商商家的痛点。普通电商平台的服饰退货率普遍在 25%~60%,而内容电商的直播场景退货率更高,有时甚至能达到 80%~90%。商家每处理一件退货,平均要付出 15~30 元的成本,涵盖物流、包装、折旧、仓储以及人工处理等多个方面,如果是跨境电商业务,这个成本还会更高。

所以,作为技术人员,行业需要我们提供稳定、可靠的线上试穿技术与产品能力,这也是我今天站在这里的原因。

那我们接下来聊聊,虚拟试穿到底好不好做,行业的核心难点又在哪里?这里我们只聚焦 C 端场景,核心难点其实集中在用户对这项技术的预期上,而这种预期可以分为三个不同的层次。

首先是基础型需求,用户这个阶段最关注的是服装上身效果,包括颜色、款式、版型和面料质感的精准还原。

这一层面的难点主要有四个:第一,用户相册里往往缺乏直接可用的素材,尤其是男性用户,别说全身清晰人像,就连头肩部位的合格肖像都很难找到;第二,试衣算法必须保证服装上身之后模特自身的关键信息不能被篡改,尤其是脸部特征,试穿前是什么样子,试穿后核心的面部 ID 信息必须保持一致;第三,真实还原与美学增强是一对很难平衡的“矛盾体”,算法初期往往优先追求信息的最大程度还原,但用户,尤其是女性用户,对美有着强烈诉求,不少女性用户甚至表示,只要能变好看,轻微修改肖像完全可以接受;第四,试衣模型大多基于扩散模型搭建,试穿效果直接取决于模型所储备的世界知识。

这就是基础型需求的核心,让用户直观看到服装穿在身上的基本样子。

第二个层面的需求是尺码合身,其实这才是大众认知里,虚拟试穿最核心的刚需,同时也是所有需求中实现难度最高的一个,直到现在行业内都还没有成熟的技术方案。

从算法层面来看,核心瓶颈在于尺码错配的训练数据极度匮乏。大家可以想想,电商平台的买家秀里,晒出的都是用户穿着合身尺码的照片,根本找不到“小体型穿大码”“大体型穿小码”这类尺码 mismatch 的完整数据。除此之外,还有两个关键问题:一是大量长尾服饰本身就存在尺码信息缺失的情况;二是不同品牌、品类的服饰,尺码设定标准并不统一,这也是为什么有些店家会建议用户拍大一码或拍小一码。

更重要的是,用户对尺码还存在个性化偏好,有人偏爱宽松的大码版型,有人则更倾向于合身的小码版型。所以说,尺码合身这个需求,是目前虚拟试穿技术实现中最大的难题。

第三个层面的需求是突破型需求,也就是我们所说的穿搭推荐。这一层,用户的核心诉求是基于自身身材与具体场景,获得智能穿搭建议,甚至进行个性化的风格探索。

给大家举几个例子:用户可以输入自身情况,提出“要参加朋友婚礼该怎么穿搭”“出席孩子家长会适合穿什么”这类场景化需求;也可以针对已有单品提问,比如“我有一件这个颜色的上衣,搭什么下装最合适”“这条裙子配哪种外套更好看”。这些都是用户在穿搭推荐上的典型诉求。

而这一需求的实现,同样存在不少技术难点。第一,模型必须精准理解用户的身材特征,比如不能给体型偏胖的用户推荐短款显壮的衣服。第二,要做好用户历史偏好的建模,准确捕捉用户过往的服饰品味,让推荐更贴合其个人喜好,不能给穿衣风格偏保守的用户推荐过多潮流品牌。第三,需要获取并理解“时空人”信息,就像现在 12 月的北京已经入冬,天气寒冷,推荐时就应该优先考虑羽绒服这类御寒衣物。

最后,既然要做风格探索,就必须持续投入穿搭知识库的构建,同时积极追踪最新的时尚潮流,这样才能给用户提供前沿且合适的穿搭建议。

接下来,我来给大家介绍一下虚拟试穿的技术发展历程。

首先,我们来看它的学术起源。通过文献梳理可以发现 Virtual Try On 这一学术概念,最早是在 2001 年由日内瓦大学的研究人员正式提出的。这项早期研究,给出了网络环境下基于人体克隆的服装试穿解决方案。

我这里展示了这篇二十多年前论文里的一些截图,大家能很直观地看到,当时采用的是高度定制化的技术方法,不仅需要从特定角度对人体进行拍照取样,还高度依赖流程化、模块化的操作,以及关键节点的一些定位技术。这就是虚拟试穿技术的学术开端。

了解了起源,我们再顺着时间轴看过去二十多年里,学术界对这项技术的框架演进脉络。这条时间轴的起点是 2001 年,终点就是当下的 2025 年。整体来看,技术发展可以划分为三个核心阶段:第一阶段是 2001 年到 2013 年,主流方案以 3D 建模、物理仿真,以及 AR(Augmented Reality)相关技术为核心;到了 2017 年至 2022 年,技术路径则逐渐转向基于 CNN 与生成对抗网络 GAN(Generative Adversarial Networks)的框架;从 2023 年开始,扩散模型(Diffusion Model)异军突起,此后绝大多数研究都聚焦于这一技术方向,直到现在扩散模型依然是虚拟试穿领域的最主流技术方案。

与此同时,我也为大家梳理了虚拟试穿技术在学术界“绕不开”的四类核心研究文献,大家如果感兴趣可以自行查阅,今天分享的这份材料也会提交给组织方,方便大家后续下载。第一类是生成对抗网络(GAN)方向,相关研究主要集中在 2017 到 2022 年,核心都是基于 GAN 技术来实现虚拟试穿。

第二类是扩散模型方向,正如之前提到的,2023 年之后这类研究开始爆发,不同的网络结构和试穿任务场景,都能在这个方向找到具有行业影响力的论文。

另外两类分别是视频试穿方向和套装试穿方向。随着单件服饰图像试穿技术逐渐成熟,学术界开始朝着不同维度拓展研究边界,一个是从静态图像延伸到动态视频,一个则是从单件服饰试穿升级到多件搭配的套装试穿。

接下来,我也带大家回顾一下京东零售虚拟试穿技术的演进脉络。京东是从 2023 年左右启动虚拟试穿项目研发,至今已有两年多的积累,期间历经了四代大的技术框架迭代。

第一代是非常早期的架构,以 U-Net 作为扩散模型主体,搭配 Reference Net 来实现参考服饰的信息注入。这个框架大家应该比较熟悉,属于 Stable Diffusion 时代的产物,它的扩散模型参数规模不算大,对应的图像生成效果也相对有限。

到了第二代,我们将扩散模型的主体结构从 U-Net 升级为了 DiT,服饰信息的特征表示则同时借助 ViT 与 VAE 来完成。这次升级其实和行业趋势同步,2024 年年初 Sora 横空出世,让大家看到了 DiT 作为扩散模型框架的先进性,因此大部分行业机构都在 2024 年上半年完成了从 U-Net 到 DiT 的技术切换。

基于第二代技术框架的实践,我们也沉淀了三个比较重要的认知分享给大家。第一,基座模型的架构和容量对试穿效果起到决定性作用。这一点也印证了扩散模型的 Scaling Law,从最初的 1B 模型,到 3B、10B、20B,再到融入 VL 框架后升级至 30B 乃至更大参数规模,模型的生成效果有着肉眼可见的提升。

第二,利用 VAE 对参考图像进行编码,能极大提升生成结果的一致性。ViT 的表征更偏语义层面,而 VAE 的训练以重构残差最小为优化目标,更擅长捕捉图像细节。在实际试穿中,若遇到衣服 logo 等细节还原不佳的问题,往往就是因为没有正确使用 VAE 编码器来做服饰特征表征。

第三,在这套框架的试穿任务中,无需对参考图进行 prompt 描述,如强行加入文本描述,反而很可能引发图文冲突与对抗。不过这个结论并非绝对,要结合具体技术框架来看,在当前的 DiT+ViT+VAE 框架下,我们是可以剥离文本模块的,但后续融入 VL 模型表征后,文本侧的信息也能发挥相应的价值。

京东零售的第三代虚拟试穿技术,核心完成了从图像试穿到视频试穿的模态升级。目前行业内的视频生成框架尚未形成统一标准,我们可以分享一套可供参考的技术方案:首先将原始视频解析为带 mask 的视频帧序列,以及类似 OpenPose 的“火柴棍”姿态帧序列;再分别对这两类序列进行编码、建模、,最终通过 MM-DiT 完成去噪,生成服饰上身的视频试穿效果。

接下来,为大家介绍京东零售最新的第四代虚拟试穿技术,这一代框架最显著的变化,就是完全摒弃了 Mask 模块,全面拥抱 Mask Free 的通用技术架构。与此同时,参考图的表征方式也从原来的纯视觉维度,进化为融合文本模态的多模态统一表征,这里我们引入了 Vision Language Model 视觉语言模型来专门完成参考图的特征提取。

基于第四代框架的实践,我们也沉淀了几个关键认知:第一,Mask Free 框架对人物的身份特征、肢体姿态、服饰细节以及配饰元素,都能实现更好的保留效果;第二,该框架彻底摆脱了 Mask 模块可能带来的误差累积,同时大幅降低了工程研发的复杂度。毕竟从研发角度来说,系统模块越简洁,引入连带问题的概率就越低,而 Mask 模块本身会因不同应用场景产生各种 badcase,容易引发新问题;第三,Mask Free 框架可以更好地兼容套装试穿,以及服装与配饰的同步试穿需求。

举个简单的例子:在传统 Mask 方案中,需要先 mask 掉用户原有的衣物,再叠加新服饰,可如果用户原本还斜挎着小包,这个包包大概率会随旧衣被 mask 掉,相当于破坏了用户的原始信息,而通过 Mask Free 的技术框架,就能实现“新衣上身,配饰保留”的效果。

最后,我们对虚拟试穿技术这一部分做个小结,同时分享几点我们的观点。首先,给正在做或将要做虚拟试穿的研发人员一个建议,启动项目前一定要拿到最好的图像生成基座模型,因为模型的世界知识和基础能力,直接决定了整个项目的起跑线。

请大家始终相信 Scaling Law,至少在 30B 参数规模以内,这种效应的验证效果是非常清晰的。第二,Mask Free 技术框架会成为未来的主流方向,大道至简,越简洁的技术路线越正确,如果现在还有同学在 Mask based 方案里摸索,建议果断舍弃那些冗余的模块,尽快拥抱 Mask Free 的通用技术框架。第三,从单件试穿到多件试穿是必然的技术趋势,而且必须要兼顾配饰。在我们看来,“试穿 + 穿搭”才是更具想象力的产品形态。我们现在聊的更多是“穿”的环节,但从产品层面来说,更关键的其实是“搭”的能力。第四,试穿结果的视频化,是用户的核心诉求,这一点毋庸置疑。

毕竟线下试衣时,大家都会对着镜子转身、摆动,动态效果才更贴近真实体验。但这需要我们长期攻克推理效率的难题,目前生成一段 10 秒的试穿视频,耗时基本还是分钟级,这样的速度对线上用户体验的影响是比较大的。最后想聊的是数据的价值,用于试穿的训练数据,会成为各大电商平台的核心资产。极致的试穿效果,主要依赖于企业的 in-house 数据。

我们都知道,数据是大模型的核心,虽然有些从业者为了凸显技术深度,会刻意回避甚至弱化数据的重要性,但事实就是如此。尤其是虚拟试穿这类赛道,每个企业都会建立自己的数据壁垒。同时,随着 AIGC 能力的提升,模型训练早期可以借助 AIGC 数据快速收敛到任务需求,后续再用真实数据校正,就能有效规避 AIGC 生成内容带来的失真。以上,就是我们在技术侧想和大家分享的几个观点。

接下来,我为大家介绍虚拟试穿的行业实践方案。首先来看整个行业的发展概况,这里有三组关键数据和大家分享。第一组数据是 200 亿美元,2025 年全球虚拟试穿平台的市场规模预计将突破 200 亿美元,这其中涵盖图像生成、增强现实(AR)以及 3D 虚拟试衣等多个细分技术方向,而中国市场的规模,预计将占到其中的 50 亿美元左右。

第二组数据是 60 余个品牌,截至今年 12 月,国内已有超过 60 家服装品牌对外宣称具备虚拟试穿能力,覆盖快时尚、运动等多个品类,这些品牌的核心分布区域,也集中在欧美中日韩等时尚消费的核心地带,像 Zara、Nike、Gap、H&M,以及中国的李宁、安踏等,都在其列。第三组数据是 60%,有机构预测,到 2026 年,全球将有超 60% 的服装品牌采用不同形式的虚拟试穿解决方案,届时,这项技术将从当前的“可选配置”,正式升级为整个行业的“标配能力”。

此外,我也在上方列出了目前国内外在虚拟试穿领域具备技术储备的部分机构和企业,供大家参考。

接下来,我带大家逐个拆解虚拟试穿行业里几家互联网大厂的典型实践方案。要介绍的第一个案例是阿里的 Lookie,用一句话概括,它是一款主打虚拟形象搭配试穿的 AI 娱乐工具。

这款产品的核心特点有两个:一是玩法丰富、搭配自由度高,而且自带很强的分享属性;二是“电子衣橱”的概念很有新意,精准命中了用户多件服饰试穿搭配的潜在需求。当然,我们也客观地分析一下它当前存在的局限性。第一,Lookie 目前仅支持套装试穿,不支持单件试穿。

套装试穿在娱乐场景下确实很有吸引力,但电商平台的用户购买行为更多集中在单件服饰,这就形成了一个明显的场景缺口。第二,它作为淘宝的一款中心化小程序,入口相对较深,导致产品的购物属性偏弱。如何从“好玩”迭代到“好用”,最终实现商业变现,是 Lookie 团队需要重点回答的问题。第三,从试穿效果来看,生成的形象和用户真实身材仍存在一定差异,大家可以去淘宝小程序里亲自体验感受。第四,Lookie 的人物形象建模,在一定程度上依赖于 LoRA 数字分身技术。

熟悉这个技术的朋友应该知道,早期的妙鸭也是这样,需要用户上传十几张个人照片,付费后等待模型训练,才能生成专属数字分身,后续试穿也都基于这个数字分身来完成。但这种技术方案对训练资源的要求较高,算不上是行业内 ROI 最优的选择。不过值得一提的是,Lookie 目前已经开始尝试支持单张图像建模,在降低用户使用门槛上往前又迈出了一步。

第二个要介绍的,依旧是阿里旗下的一款产品,淘宝 AI 试穿。用一句话来概括,它是一款入口布局激进、功能设计清爽的购物助手。这款产品的核心特点有两个:第一,它的入口直接设置在搜索双列的商卡上,这个位置的选择相当大胆激进,能最大程度触达购物链路中的用户;第二,它的推理速度较快,试穿效果稳定,产品功能也足够聚焦,整体使用体验十分清爽。

当然,它也存在两处明显的局限性:其一,目前淘宝 AI 试穿仅支持上传用户相册里的全身正面站立照,这个要求对不少用户来说存在使用门槛,而且产品缺乏虚拟形象定制能力,毕竟从相册里找出完全符合要求的照片,并不是一件容易的事。而虚拟形象定制恰恰是降低使用门槛的有效方式。其二,它现阶段只具备单品试穿能力,没有搭载穿搭推荐功能。我们之前提到过,穿搭是试穿场景中非常重要的延展环节。

不难发现,阿里的这两款试穿产品在一定程度上形成了互补:淘宝 AI 试穿专注于单件试穿场景,深度嵌入核心购物链路;而它所欠缺的穿搭能力,正好可以由 Lookie 小程序来补齐。

介绍完国内电商平台的试穿产品,我们再把目光转向海外,看看海外的虚拟试穿技术能力。这里我们以 Google Shopping Try On 为例展开介绍。用一句话来描述它,这是一款主打高真实性的购物决策工具。

它的核心特点有三个:第一,具备跨端覆盖的试穿能力,同时支持移动端与桌面端,能满足不同用户的使用习惯;第二,服饰覆盖率极高,几乎涵盖了 Google Shopping 平台上的全量服饰品类;第三,支持用户上传个人照片或使用 AI 模特,而且对用户上传素材的包容度很高,要知道,通常模特姿态越简单,试穿效果越容易把控,但 Google Shopping Try On 即便是面对坐姿、非标准站立等有难度的姿态,也能处理得比较好。

当然,它也存在明显的局限性,这点和淘宝 AI 试穿有些类似,即仅支持单品试穿,暂未开放穿搭组合的试穿功能。

介绍完货架电商场景下的典型 AI 试穿能力,我们再把目光转向内容电商,这里以抖音的 AI 试穿为例来分析。

抖音的 AI 试穿,是一款主打“直播 + 试穿”的新体验产品。它的核心特点有三个:第一,与直播场景紧密结合,用户从看到商品到完成试穿的链路快捷又易用;第二,同时支持上传用户真实照片和使用 AI 模特,在一定程度上降低了用户的使用门槛;第三,除了当前入口的商品,还能支持同店铺内的穿搭推荐,正好契合了我们之前提到的试穿延展需求。

这款产品也存在两处局限性:其一,虽然配备了 AI 模特,但这些模特的肖像和用户本人没有关联,更像是一张“平均脸”,用户会觉得是陌生人在试穿,而非自己,体验上会有割裂感;其二,它的其中一个试穿入口设置在商品详情页的尺码助手附近,而目前行业内并没有成熟的技术能支持尺码合身效果的试穿,这就容易给用户造成误导,用户本以为点进来能看尺码是否合适,实际却只能看到服饰上身的基础效果,从产品入口设计的角度来看,还有进一步优化的空间。

聊完面向 C 端的试穿产品方案,接下来我们看一个 B 端的典型案例,同样来自阿里的绘蛙,这是一个专门服务服饰电商商家的 AI 内容生成平台。核心特点有三个:第一,自带海量素材库,涵盖参考图与模特素材,为商家提供了充足的选择空间;第二,同时支持单件与多件服饰上身生成,而且输出素材的分辨率较高,清晰度能满足电商展示、内容种草等多类场景的需求;第三,试穿功能可与平台内其他 AI 工具无缝联动,比如用试穿能力生成效果图后,能直接在平台内调用图像编辑功能进行二次优化,操作流程十分顺畅。

当然,绘蛙也存在一些局限性:一方面,作为 B 端生成式服务平台,它目前的生产效率相对偏低,推理耗时基本是分钟级,暂不支持大量素材的批量生成,这对于有规模化生产需求的商家来说是个不小的遗憾;另一方面,受 B 端的产品定位所限,平台缺少 C 端用户的使用场景,毕竟普通消费者更习惯在手机购物链路中使用试穿功能,而绘蛙的核心用户群体始终是电商商家,主要用于制作商品相关素材。

介绍完这么多行业实践案例,接下来我们对整个虚拟试穿行业做个小结,主要从四个方面展开。

第一,B 端与 C 端的定位分化清晰,PC 端或 Web 端聚焦服务 B 端商家,提供模特生成、AI 试穿、素材二次编辑等能力,批量化、低成本生产是商家的核心诉求。如果平台能打通“素材生产—投放—效果验证”的闭环,并将验证结果反馈给模型辅助进化,会成为中小商家的一大福音。

而 APP 端或小程序端则瞄准 C 端用户,主打简化操作流程,联动购物闭环以适配移动端的碎片化体验;再次强调,对于 C 端而言,“穿”是刚需,但“搭”才蕴藏着更多产品机会。

第二,入口形态决定产品定位。电商平台的 AI 试穿入口无非两种:第一种是非中心化入口,将试穿能力嵌入购物全流程,比如直接放在每个商品的商卡上,实现“见品即试穿”,核心目标是强化用户的及时决策;第二种是中心化入口,类似阿里 Lookie 的小程序单入口,不依附于具体 sku,能打造独立场景,延伸穿搭推荐、社交分享等功能,让产品从购物工具升级为内容娱乐的社交载体。

第三,通过多元方案降低用户使用门槛。针对用户相册难以找到合格全身照的痛点,行业内普遍采用多种路径打破传图依赖:一是虚拟捏人;二是非标图像兼容,提升算法能力,支持半身照等非标准素材试穿,比如用半身照试穿上衣;三是“大头照 + 身材参数”实现数字形象,以此降低 C 端用户的试穿启动门槛,这些都是值得肯定的产品尝试。

第四,尺码破局需要技术与策略双重保障。单纯依靠算法模型,很难解决尺码合身的试穿问题。行业的可行思路是联动尺码助手、用户试穿报告等策略工具,用“技术生成效果 + 策略辅助决策”的双重模式降低用户购物决策风险,最终实现退货率的下降。

目前,京东零售的虚拟试衣能力还处于小流量测试阶段,所以在座的各位暂时还很难直接体验。这里和大家分享几组核心数据:我们的虚拟试穿能力已覆盖超百万服饰 SKU,实验阶段的用户量也突破了 100 万,同时覆盖 70 多个服饰类目,合作的头部服饰品牌超过 500 家,这就是我们现阶段的产品现状。

再给大家拆解一下具体功能,最左侧是商详主图的试穿入口。目前这个入口的设置比较保守,没有像淘宝 AI 试穿那样直接嵌入搜推双列商卡,我们认为在实验阶段,还是尽量避免影响用户原有的购物体验,后续会根据测试效果考虑提升入口优先级。

中间的三张图是我们重点探索的同款不同色服装试穿,用户从某一款颜色的服饰(比如图中的粉色羽绒服)进入试穿页面后,可以一键切换同 SPU 下的白色、黑色等其他配色,便捷完成多色试穿对比。最右侧的功能则是我们正在积极推进的上下装搭配试穿,系统会为入口服饰,比如这件羽绒服,匹配同店铺内的裤子、裙子等下装,让用户直观感受不同搭配的视觉效果。当前我们把搭配候选池限定在同店铺内,从消费者视角来看,打破店铺限制可能会更有吸引力。

从技术层面来讲,跨店铺搭配的实现难度也并不大,核心在于业务逻辑的梳理,这需要我们与商家做更深入的调研沟通,明确背后的商业价值后,再考虑进一步的功能升级。

这里我也和大家分享一下京东在虚拟试穿项目实践中沉淀下来的三点核心经验,这些观点其实在前面的内容里也有所涉及,这里再集中回顾一下。第一,想尽一切办法降低用户使用门槛。

我们有一组数据可以佐证这个观点,目前线上使用虚拟试穿的用户中,超过半数无法上传符合要求的试穿照片。即便我们在上传页面做了详细的规则引导,用户从相册里找到合规照片的难度依然很高。

为此,我们果断加入了数字人模式,采用“真实照片上传 + 虚拟数字人形象”的双轨方案,用户如果找不到合适的照片,或者不愿上传个人照片,就可以输入身高、体重等参数打造专属数字人;若能提供肖像照,数字人会更贴近用户本人,没有肖像照也可以使用默认形象,这是降低用户使用门槛非常行之有效的方法。第二,穿搭场景中,“搭”大于“穿”。

正如之前提到的,“穿”是用户的基础性刚需,而“搭”属于突破性需求。但在电商场景下,用户对穿搭的期待其实很高,所以我们一直在积极探索为用户提供多样化的搭配可能性,以此挖掘更多产品价值。第三,试穿效果要兼顾“像”与“美”,二者缺一不可。这一点往往被很多项目组忽略。用户对试穿效果的核心要求是“真、像、美”:“真”是衣服和人物的真实感,不能有明显的 AI 痕迹;“像”是人物 ID、服饰细节、环境背景的精准保留;而“美”常常被忽视,但其实至关重要。

我们在算法侧也把评测标准,从最开始的“衣服还原不出错”,升级为“可用率 + 美观度”的多维度评估体系。这里可以举个例子:大家做虚拟试穿,都是希望提升转化率、降低退货率,但如果忽略了“美”的需求,很可能连转化率都会受影响。没有试穿时,用户看商详主图觉得衣服不错就会下单,但 AI 试穿后发现效果不好看,反而会直接放弃购买。

这其实是大模型在落地原生 AI 场景时会遇到的阵痛,所以我也呼吁行业同仁,面对这类问题要保持长期心态,用户心智的培养和行业的迭代,都需要一个过程。

最后,我想和大家分享几个我们认为未来值得探索的虚拟试穿产品形态。第一个是万物成套的试穿试戴系统,正如我们之前提到的,服饰试穿已经从单件升级到多件,但对于注重 OOTD 的用户来说,鞋子、配饰、包包甚至手机壳,都是穿搭的重要组成部分。

我们希望未来能实现全品类的组合式穿搭,打造真正的“万物穿搭”试穿效果。第二个是数字人虚拟试穿 +AI 导购,想象一下,每个用户都有专属的数字人形象,它既可以是你的分身,也可以是你的 AI 导购助手。你在逛商品流的时候,轻触商卡就能把衣服“穿”到数字人身上,同时还能和这个数字人对话,让它帮你推荐搭配,实现 7×24 小时的购物陪伴。

这其实也是电商 2.0 时代追求的极致沉浸式个性化体验,我们甚至畅想过一个更极端的场景:用户浏览服饰商卡时,卡面展示的就是自己穿着这件衣服的形象,滑一屏都是专属的上身效果,选款会更直观。不过这种形态需要充分尊重用户意愿,避免造成冒犯,同时也面临着推理资源、生成效率等工程侧的巨大挑战。

第三个是电子衣橱。这个概念虽然已有部分产品提及,但我们认为还有很大的深挖空间。用户可以把已购、收藏的服饰都放进这个虚拟衣橱,系统根据天气、出席场合等场景,为用户提供交互式、陪伴式的试穿搭配建议,真正实现“衣随场景搭”。以上就是我们看好的几个未来产品方向,分享给大家。

关于虚拟试衣的内容,我们就先介绍到这里。回顾今天的分享主题,我们是想从虚拟试衣切入,聊一聊更大范畴的电商 AIGC。接下来,我就快速为大家介绍京东在电商 AIGC 领域的能力布局,整体可以分为八大能力板块。

第一,商品智能抠图。这是所有电商平台最关键、最基础的技术能力,抠图效果的优劣,直接影响后续整条素材制作链路的最终呈现质量。第二,商品素材生成。我们依托 AIGC 技术,实现主图、商详图、广告素材的自动化生成。在技术加持下,内容制作周期大幅缩短,素材迭代效率提升了数十倍。第三,视频生成。从 2024 年开始,视频生成技术的效果已经被大家广泛认可,国内相关技术也实现了大幅跃升。

我们主要聚焦主图视频和营销视频两大场景:主图视频时长较短、镜头单一,主打快速展示商品核心卖点;营销视频则篇幅更长、内容更丰富,通常会搭配剧本与口播,用于深度种草和品牌宣传。第四,AI 模特。这项能力不仅服务于服饰场景,也覆盖了众多非服饰品类的素材生成需求。

传统模式下,头部商家会邀请明星代言,中型商家则需要对接外部服务商拍摄,不仅成本高昂,还会拖慢商品上新节奏。而 AI 模特能力通过 AIGC 技术,为商家快速生成适配不同场景、不同风格的模特素材,有效降本增效。

第五,虚拟试穿。这项能力不过多赘述了,今天的分享主题基本都围绕它展开,核心是通过 AIGC 技术实现服饰的虚拟上身与搭配,降低用户决策成本。第六,AI 设计家。也可以称之为“放我家”功能,主要服务于家具等大件商品场景。用户上传自家房屋照片后,AI 就能将目标家具植入到真实家居环境中,直观呈现摆放效果;同时还能针对毛坯房、清水房,按照用户需求设计出对应的装修风格,解决家居选购与装修设计的可视化难题。第七,3D 立影。这是京东零售自研的 AIGC 裸眼 3D 技术,能让商品从商卡中“跳脱”出来,以 3D 形态呈现。这项技术能显著提升品牌商品的点击率,以及直播场景下的用户互动率。第八,数字人。

相信大家对京东数字人并不陌生,目前已有超 2 万个品牌在使用这项能力,相关场景的转化率提升了 30%。它最直接的价值是实现 7×24 小时数字人直播卖货,打破传统直播的时间限制,持续为商家创造收益。接下来,我会选取其中几项能力,展开分享我们在业务侧取得的实际成果。

接下来,我挑选几个能力项,和大家分享我们在业务侧取得的实际成果。第一个是商品素材 AIGC 生成。这里展示的是一款起泡酒的案例,覆盖商品主图、商详图、卖点图和广告图等全类型素材。

目前这项能力已经改变了京东超 100 万商家的内容设计模式,既大幅提升了素材制作效率,又显著降低了制作成本。

第二个是 AI 模特。模特图生成技术正逐步在头部品牌中批量落地,我们过去已与 Nike、阿迪达斯、海澜之家三大时尚品牌达成深度合作。在批量应用阶段,合作品牌的商品转化率提升 29%,商品上架速度提升 90%,同时商品素材制作成本大幅下降。大家现在在这些品牌店铺里看到的部分模特图,正是由我们的 AIGC 技术生成,再结合虚拟试穿能力完成服饰上身的。

第三个是 AIGC 裸眼 3D 技术,立影。这里有 SK-II 和华为耳机两组合作案例,这项技术能明显带动品牌点击率与销售转化率的提升。目前它主要应用于广告投放、家具搭配、直播互动、互动游戏以及试装试戴等场景,感兴趣的朋友可以去京东 APP 里体验这项能力。

介绍完了这些单项能力,接下来我要给大家介绍一个集成化的平台,它整合了我刚才提到的大部分能力,也就是京东零售的电商 AIGC 内容生成平台,我们管它叫京点点。

这里有几组数据,带大家快速了解这个平台的能力:第一,京点点已经在京东零售的业务场景中,支持了超过 30 多种业务场景,覆盖商品发品、运营、营销等多个环节;第二,平台每天的能力调用量超过 1000 万次;第三,它已经服务了超过 100 万的京东商家。依托这个平台,商家的内容生产成本降低了 90%,内容生产效率更是提升了 95%。

今天,我更想和大家分享一个新进展:在过去几个月里,我们对京点点平台完成了一次系统性升级,全新的版本我们命名为焕新版京点点平台,也就是 Oxygen Vision 平台。

这个新版平台和老版最大的差别,一方面是集成了更多的 AIGC 能力项,另一方面则是把交互形式从原来的纯 GUI 交互,升级为 Linguistic UI+GUI 的混合模式。具体来说,新版平台具备四大核心特点:第一,对话式人机交互,支持纯自然语言的交互方式,操作更便捷;第二,大模型驱动的任务规划与执行,能够拟人式地分步骤、有序完成各项操作;第三,强一致性且不失多样性的商品素材生成能力,确保生成内容既贴合商品属性,又能满足多样化需求;第四,无缝接入京东 AB 实验平台的能力。

正如我们之前所说,一个合格的 B 端 AIGC 内容生成平台,必须打通“素材生产—投放—实验回收—模型迭代”的完整闭环,而这一点,新版京点点平台已经完全具备。接下来,我们来看一段视频,更直观地了解这个焕新版的京点点平台。

最后是未来展望,聊聊电商 AIGC 的技术纵深与商业价值。我想结合这段时间做 AIGC 的实践,分享一些个人观点和认知层面的思考。首先,大家来看这张图,我把 AIGC 的应用分成了三个层次。

最底层的是创意类应用,这类应用的自由度高、约束少,核心是满足用户的个性化表达需求,比如短视频平台的魔法表情特效,运营活动需要的 banner 海报、插画设计,都属于这个范畴。往上一层是影视类应用。

如果大家了解即梦、可灵、海螺这些视频生成工具,应该会有体感,这类应用的核心是通过 AIGC 实现角色和场景的一致性保持,技术难点也集中在这里。不过说实话,普通消费者对于这类内容的细节一致性,敏感度其实没那么高。

而最上层的,就是我们今天一直在聊的电商类 AIGC,这个方向,需要解决海量 SKU 的适配问题,要确保商品信息的准确传递,还要满足实时转化的业务诉求,同时还要应对严格的合规风险。

如果从技术复杂度排序,创意类最简单,影视类次之,电商类堪称地狱级难度。为什么这么说?因为电商 AIGC 对商品一致性的要求是极致严苛的,哪怕是一个细节的偏差,比如裙子本该没有花边,生成的素材里却加了花边,用户收到货发现“货不对版”,就可能引发客诉,甚至是官司。

这和影视类的一致性要求完全不是一个量级,更别说创意类的开放创作模式了。但有意思的是,这三类应用里,电商类 AIGC 恰恰是距离商业化、距离“钱”最近的。做了这么久的 AIGC 应用,我有一个很直观的体感:有两类应用场景是可以直接实现变现的。

第一类,就是影视类 AIGC。这个很好理解,举个例子,拍摄《速度与激情 XX》时,要呈现兰博基尼和法拉利相撞的画面,在没有 AIGC 技术之前,这样一个镜头的成本可能高达上百万;而现在,依托可灵、即梦这类视频生成工具,成本有可能直接降到几百美金。无论是文本生成视频、图像生成视频,还是首尾帧驱动的视频生成技术,都能支撑这类特效镜头的制作。更值得一提的是,现在很多视频生成能力还叠加了音画直出功能,这让电影级别的多媒体内容高效输出,变得越来越有可能。

第二类,就是电商与商业化 AIGC。这里我们暂时不做细致区分,核心逻辑很简单:我们用 AIGC 生成的电商素材,是直接供商家用于商品运营和投放的,最终指向的就是 GMV 的增长,这是最直接的收益。商业化场景也是同理,通过 AIGC 制作广告素材,直接面向广告主和用户,素材投放后带来的广告消耗,直接对应着平台的营收。所以在我看来,电商与商业化 AIGC,是现阶段离“钱”最近的应用方向。这就是我对整个 AIGC 行业应用落地的一些理解。

最后,我再分享三个总结性的观点。第一,从技术角度来看,像虚拟试穿这类垂直业务,未来不会再依赖专属定制模型。一个明确的技术趋势是,越来越多的电商 AIGC 任务,会统一到通用大模型框架之下,就像 nano banana pro 这类架构一样,用户只需要在 prompt 层面定义好业务需求,就能完成相应任务。

只不过现在还有不少虚拟试穿方案,还停留在定制化思路上,这个转变需要一个过程。第二,想和所有 AIGC 创业者、以及大厂里做 AI 提效的同学聊一句:不是所有业务都需要升级到 LUI(对话式交互)的形式。有些功能用 GUI(图形界面)来承载,体验反而会更好。

不要觉得套上 LUI 的壳,就是做了 AI native 的升级,很多时候这种做法反而属于“故弄玄虚”。这两年大家应该也见过不少“AI 小助手”“智能 XX 工具”,本质上就是把原来的 GUI 功能强行改成对话式,看似用上了大模型和 Agent,实际体验反而不如从前。

尤其是编辑类需求,图形化的交互方式往往更直接高效。而超级京点点平台之所以选择 LUI+GUI 的混合模式,核心是看服务对象,我们主要服务的是京东的采销同学。他们每个人负责的 SKU 数量极多,不可能针对每个商品去定制化制作素材,更需要“一句话指令”就能自动生成内容的傻瓜式操作。这样才能让采销把精力聚焦在拿货、议价、仓储运营这些核心工作上,而不是耗费在素材制作上。

最后一点想跟大家分享的,是关于电商 2.0 的核心方向,极致的沉浸式与个性化购物体验。今天我们介绍的虚拟试穿功能,就是在沉浸式体验上的重要探索。而个性化购物的底层支撑,离不开“千人千面”的商品素材生成能力。这也是京东在探索大模型时代电商 2.0 形态的一条核心技术路线。

大家对“千人千面”并不陌生,过去我们的搜索推荐就是如此,同样搜索一个关键词,不同用户看到的结果页截然不同。但到了商品素材层面,目前还是“千人一面”的状态,商家只维护了一套主图、商详图和卖点介绍。

而“千人千面”的商品素材生成,就是要打破这种单一性。我给大家举个简单的例子:一款中性款冲锋衣,面对三类不同需求的买家,我们可以用算法提炼出他们各自关注的核心卖点,定制差异化的素材,既精准吸引用户,又提升购物体验。

第一类是户外功能型买家,他们最关心面料科技、防风防水、透气耐磨这些专业指标,我们就在商品图上重点呈现这些性能参数;第二类是外观穿搭型买家,他们不纠结材质,只在意设计风格、版型潮流和穿搭适配,我们就主打 OOTD 相关的素材,突出颜值和搭配感;第三类是价格敏感型买家,他们不关注功能和颜值,只看价格、优惠和赠品,我们就直接在商卡上展示最低价标识、优惠券、赠品信息等内容。

通过这个案例,大家应该能更直观地理解什么是“千人千面”的商品素材能力。当然这个话题还有很多细节可以展开,我在 10 月份也做过一次相关分享,感兴趣的朋友可以去网上查阅,里面有更详尽的介绍。好了,那今天我的分享就到这里,谢谢大家!

演讲嘉宾介绍

《2025 年度盘点与趋势洞察》由 InfoQ 技术编辑组策划。覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

蒋慧琳:让思政教育成为“可触摸... 委员名片 蒋慧琳,长沙市政协委员、长郡斑马湖中学副校长 长沙晚报全媒体记者 蒋志斌 “政协委员应当有...
AI赋能美好教育生态,让未来学... 龙岗区外国语学校构建全链条AI赋能教育生态体系。 在深度对接“All in AI”战略的深圳市龙岗区...
打造湾区AI教育高地 争创人工... 2025年秋天,深圳第二外国语学校(简称为“深二外”)的物理实验室内,一名高二学生正佩戴VR眼镜,“...
菏泽信息工程学校成功入选202... 齐鲁晚报·齐鲁壹点 程建华 通讯员 闫兆任 近日,由中国职业教育百强评选组委会主办的第九届中国职业教...
老师,这一年有你真好!| 教育... 老师的爱 从不限于三尺讲台的谆谆教诲 它藏在山海跋涉的牵挂里 融在危难时刻的坚守中 沉淀在经年累月的...
学前儿童均须建立学籍!教育部最... 29日,教育部发布《全国学前儿童学籍管理办法(试行)》,进一步保障学前儿童受教育权益,规范幼儿园办园...
以学籍管理规范化推动学前教育普... 熊丙奇 为贯彻落实《教育强国建设规划纲要(2024-2035年)》,加强学前儿童学籍规范管理,进一步...
以“优品样态”擘画教育高质量发... 26载春秋流转,一棵棵凤凰树年复一年地开花、结果,见证着深圳东部一所老牌名校从传统走向现代的深刻转型...
风口财评|打破“造星”泡沫,让... 当“普通孩子也能当演员”等诱人的口号在直播间刷屏,一场针对家长焦虑的精密收割已然上演。借微短剧市场爆...
健全未成年人法治教育协同机制(... 朱 林 未成年人是国家的未来、民族的希望,其法治观念的养成不仅关乎个体发展,更关系到国家法治建设的根...