不只是外卖，美团的AI大模型已经做成这样了_休闲娱乐

不只是外卖，美团的AI大模型已经做成这样了

创始人

2026-03-31 14:29:04

经过了两年多的发酵，基本上大家都知道大模型LLM的本质上就是NTP，也就是Next-Token Prediction（预测下一个Token）。

比如说我们跟AI说，白日依山尽，那么它就会自动的接上黄-河-入-海-流。

它是一个个来的，先是黄，接着是河，以此类推，最后补全。

同时多模态大模型估计也是一个很熟悉的词，它叫multimodal，也很好理解，它比传统的纯文本大模型更近一步，不仅可以理解古诗这样的文字，还可以理解更多种形式的内容，比如图片、视频、音频等。

传统的多模态是怎么做的，其实一句话就够了：

语言模型负责“想”，视觉/语音模块负责“看”和“听”，最后再把结果喂回语言模型。

也就是说，传统多模态大模型虽然表面上是一个整体，内部往往还是拼装式架构：

文本部分是标准 LLM，按 NTP 预测下一个 token；
图片进来，先过一个视觉编码器，变成连续特征
音频、视频都有单独的插件

所以传统多模态最大的问题，不是“能力不够强”，而是底层建模并不统一。

说白了，理解和生成属于两套不同的系统。

看图的只会看图，不会画图；

听音的只会听音，不懂说话。

这也是为什么说Longcat-Next的关键词不是multimodal，而是native multimodal。

美团的这个工作《LongCat-Next: Lexicalizing Modalities as Discrete Tokens》，其实解决的回答的是一个问题：如果 LLM 的本质就是 NTP，那为什么 NTP 只能预测文本 token？

既然语言模型能通过预测下一个 token，学会压缩、建模和泛化人类语言，

那图像、语音这些现实世界里的信号，能不能也被压缩成离散 token，统一进入同一个预测框架？

这就是 LongCat-Next 的核心出发点：

既然本质上都是 token 到 token，那么就把多模态真的做成 token 到 token。

于是事情就变得非常简洁了：

给定文本 token，预测后续文本 token，这是语言建模；
给定图像 token，预测文本 token，这是视觉理解；
给定文本 token，预测图像 token，这是图像生成；
给定语音 token，预测文本或语音 token，这是语音理解和语音对话。

这就是所谓的简洁且优雅的解决方案，token化一切，然后把理解和生成都变成NTP问题。

注意这里最关键的一点：

LongCat-Next 不是把“多模态能力”接在语言模型外面，而是把图像和语音都内化成语言模型世界观中的离散序列。

这就是它提出的 DiNA (Discrete Native Autoregressive | 离散原生自回归) 架构

把架构图抽象成下面这个更容易理解的形式后豁然开朗。

DiNA的名字和理念都很直接：

Discrete：一切先离散化成 token；
Native：而是原生纳入；
Autoregressive：统一按自回归方式做 next-token prediction。

但这件理解上很容易的事情，存在一个巨大的难点：文本天然就是离散的，图像不是。

文字做 tokenization 很自然，因为文字本来就有符号边界。

图像没有。图像本质是连续信号，而且语义密度极高。

这里就碰到了离散视觉建模几十年来最核心的矛盾：

理解任务和生成任务，表面上都在处理图像，但它们想要的东西其实不太一样。

说得再直白一点：

·理解要的是“别管那么多细节，你先告诉我这图什么意思”；

·生成要的是“别光懂意思，你得给我一笔一画画准”。

这两件事天然有点拧巴。

也正因为这样，过去大家对离散视觉路线一直有个疑问：它拿来生成也许可以，但真要拿来做高质量理解，行不行？

LongCat-Next 真正想啃的，其实就是这块最硬的骨头：

能不能做出一套视觉 token，既让模型看得懂，又让模型画得出来。

LongCat-Next用的是一套dNaViT + SAE + RVQ的方法。

核心逻辑其实很简单：

·SAE 负责先把图像变成“更有语义的视觉表示”，别一上来就压成一堆只有压缩意义、没有理解意义的token；否则后面的量化 token 很容易退化成纯压缩码，能重建，不一定能理解。

·dNaViT 负责把这种视觉表示真正 token 化，而且尽量保留原生分辨率，不在入口就把小字、版式、长宽比这些信息搞坏； OCR、文档、图表这类任务来说，原生分辨率不是优化项，而是上限项；入口一旦破坏结构，后面再强的语言模型也补不回来。

·RVQ 则负责分层量化，不是一刀切，而是先记大结构，再一层层补细节。它的作用不只是压缩，而是把视觉信息拆成层级表示，避免把语义和细节同时挤进一个离散瓶颈里。

这样做的好处就在于，它不是粗暴地把图像塞进语言模型，而是在认真解决一个核心问题：

怎么把图像变成一种既能“看懂”，又能“画回去”的 token。

说白了，LongCat-Next 想做的不是普通的“视觉接入 LLM”，而是想做视觉版的“分词-解词”。

图像进来，先被拆成离散 token；图像出去，再由这些 token 还原回来。

只不过这套“视觉分词”比文本难太多，因为它既要保语义，又要保细节。

语音部分也做了类似的改进，把连续信号转变为离散token的同时，还能保留情感和语义信息。

这套纯native多模态的架构，取得的成绩是显著的，在同级别大小里面非常能打，在绝大多数的benchmark测试里面都是数一数二，sota的也有几个。

特别要注意的，这是一个开源工作：

GitHub: https://github.com/meituan-longcat/LongCat-Next

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Next

能看得出相比起动不动几十上百块的GPU需求，这是一个不算大的模型。

把 LongCat-Next 整体串起来看，会发现它真正要表达的不是：“我又做了一个能看图能画图能说话的大模型。”

而是：

如果 LLM 的成功，本质上来自离散自回归预测，那这套东西就不该只用来预测文字，而应该尽可能扩展到更一般的信号。

这才是它真正想要触及的地方。

它不是在给语言模型外挂眼睛和耳朵，而是在试图把眼睛看到的东西、耳朵听到的东西，也一起拉进“token 预测”这套统一世界观里。

它把多模态这件事往前推了一步：不是继续给语言模型外挂能力，而是尝试从底层把语言、图像、语音统一进同一套 token 预测框架里。

如果说过去的大模型是在证明“预测下一个字”这件事能产生智能，那 LongCat-Next 想证明的就是：这套方法，也许不只适用于字。

这也是我觉得美团这个工作真正有意思的地方。它不只是做了一个更全能的模型，而是在认真探索：

NTP 的边界，到底是不是整个多模态世界。

本质视觉语言预测模型离散语音文本 Token 图像 Next 模态 token

上一篇：外卖餐盒“华丽变身”！我把炫酷“塑料”背在身上

下一篇：“双向回暖”，韩国加码对华旅游推广

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

不只是外卖，美团的AI大模型已经做成这样了

相关内容

热门资讯